搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學(xué)習在線(xiàn)課程
觀(guān)看技術(shù)視頻
寫(xiě)文章/發(fā)帖/加入社區

會(huì )員中心

創(chuàng )作中心

發(fā)布

創(chuàng )作活動(dòng)

完善資料讓更多小伙伴認識你，還能領(lǐng)取20積分哦，立即完善>

3天內不再提示

圖解BERT預訓練模型！

一、前言

2018 年是機器學(xué)習模型處理文本（或者更準確地說(shuō)，自然語(yǔ)言處理或 NLP）的轉折點(diǎn)。我們對這些方面的理解正在迅速發(fā)展：如何最好地表示單詞和句子，從而最好地捕捉基本語(yǔ)義和關(guān)系？此外，NLP 社區已經(jīng)發(fā)布了非常強大的組件，你可以免費下載，并在自己的模型和 pipeline 中使用（今年可以說(shuō)是 NLP 的 ImageNet 時(shí)刻，這句話(huà)指的是多年前類(lèi)似的發(fā)展也加速了機器學(xué)習在計算機視覺(jué)任務(wù)中的應用）。

ULM-FiT 與 Cookie Monster（餅干怪獸）無(wú)關(guān)。但我想不出別的了...

BERT的發(fā)布是這個(gè)領(lǐng)域發(fā)展的最新的里程碑之一，這個(gè)事件標志著(zhù)NLP 新時(shí)代的開(kāi)始。BERT模型打破了基于語(yǔ)言處理的任務(wù)的幾個(gè)記錄。在 BERT 的論文發(fā)布后不久，這個(gè)團隊還公開(kāi)了模型的代碼，并提供了模型的下載版本，這些模型已經(jīng)在大規模數據集上進(jìn)行了預訓練。這是一個(gè)重大的發(fā)展，因為它使得任何一個(gè)構建構建機器學(xué)習模型來(lái)處理語(yǔ)言的人，都可以將這個(gè)強大的功能作為一個(gè)現成的組件來(lái)使用，從而節省了從零開(kāi)始訓練語(yǔ)言處理模型所需要的時(shí)間、精力、知識和資源。

BERT 開(kāi)發(fā)的兩個(gè)步驟：第 1 步，你可以下載預訓練好的模型（這個(gè)模型是在無(wú)標注的數據上訓練的）。然后在第 2 步只需要關(guān)心模型微調即可。

你需要注意一些事情，才能理解 BERT 是什么。因此，在介紹模型本身涉及的概念之前，讓我們先看看如何使用 BERT。

二、示例：句子分類(lèi)

使用 BERT 最直接的方法就是對一個(gè)句子進(jìn)行分類(lèi)。這個(gè)模型如下所示：

為了訓練這樣一個(gè)模型，你主要需要訓練分類(lèi)器（上圖中的 Classifier），在訓練過(guò)程中幾乎不用改動(dòng)BERT模型。這個(gè)訓練過(guò)程稱(chēng)為微調，它起源于Semi-supervised Sequence Learning 和 ULMFiT。

由于我們在討論分類(lèi)器，這屬于機器學(xué)習的監督學(xué)習領(lǐng)域。這意味著(zhù)我們需要一個(gè)帶有標簽的數據集來(lái)訓練這樣一個(gè)模型。例如，在下面這個(gè)垃圾郵件分類(lèi)器的例子中，帶有標簽的數據集包括一個(gè)郵件內容列表和對應的標簽（每個(gè)郵件是“垃圾郵件”或者“非垃圾郵件”）。

其他一些例子包括：

1）語(yǔ)義分析

輸入：電影或者產(chǎn)品的評價(jià)。輸出：判斷這個(gè)評價(jià)是正面的還是負面的。

數據集示例：SST （https://nlp.stanford.edu/sentiment）

2）Fact-checking

輸入：一個(gè)句子。輸出：這個(gè)句子是不是一個(gè)斷言

參考視頻：https://www.youtube.com/watch?v=ddf0lgPCoSo

三、模型架構

現在你已經(jīng)通過(guò)上面的例子，了解了如何使用 BERT，接下來(lái)讓我們更深入地了解一下它的工作原理。

論文里介紹了兩種不同模型大小的 BERT：

BERT BASE - 與 OpenAI 的 Transformer 大小相當，以便比較性能

BERT LARGE - 一個(gè)非常巨大的模型，它取得了最先進(jìn)的結果

BERT 基本上是一個(gè)訓練好的 Transformer 的 decoder 的棧。關(guān)于 Transformer 的介紹，可以閱讀之前的文章《圖解Transformer（完整版）！》，這里主要介紹 Transformer 模型，這是 BERT 中的一個(gè)基本概念。此外，我們還會(huì )介紹其他一些概念。

2 種不同大小規模的 BERT 模型都有大量的 Encoder 層（論文里把這些層稱(chēng)為 Transformer Blocks）- BASE 版本由 12 層 Encoder，Large 版本有 20 層 Encoder。同時(shí)，這些 BERT 模型也有更大的前饋神經(jīng)網(wǎng)絡(luò )（分別有 768 個(gè)和 1024 個(gè)隱藏層單元）和更多的 attention heads（分別有 12 個(gè)和 16 個(gè)），超過(guò)了原始 Transformer 論文中的默認配置參數（原論文中有 6 個(gè) Encoder 層， 512 個(gè)隱藏層單元和 8 個(gè) attention heads）。

四、模型輸入

第一個(gè)輸入的 token 是特殊的 [CLS]，它的含義是分類(lèi)（class的縮寫(xiě)）。

就像 Transformer 中普通的 Encoder 一樣，BERT 將一串單詞作為輸入，這些單詞在 Encoder 的棧中不斷向上流動(dòng)。每一層都會(huì )經(jīng)過(guò) Self Attention 層，并通過(guò)一個(gè)前饋神經(jīng)網(wǎng)絡(luò )，然后將結果傳給下一個(gè) Encoder。

在模型架構方面，到目前為止，和 Transformer 是相同的（除了模型大小，因為這是我們可以改變的參數）。我們會(huì )在下面看到，BERT 和 Transformer 在模型的輸出上有一些不同。

五、模型輸出

每個(gè)位置輸出一個(gè)大小為 hidden_size（在 BERT Base 中是 768）的向量。對于上面提到的句子分類(lèi)的例子，我們只關(guān)注第一個(gè)位置的輸出（輸入是 [CLS] 的那個(gè)位置）。

這個(gè)輸出的向量現在可以作為后面分類(lèi)器的輸入。論文里用單層神經(jīng)網(wǎng)絡(luò )作為分類(lèi)器，取得了很好的效果。

如果你有更多標簽（例如你是一個(gè)電子郵件服務(wù)，需要將郵件標記為 “垃圾郵件”、“非垃圾郵件”、“社交”、“推廣”），你只需要調整分類(lèi)器的神經(jīng)網(wǎng)絡(luò )，增加輸出的神經(jīng)元個(gè)數，然后經(jīng)過(guò) softmax 即可。

六、與卷積神經(jīng)網(wǎng)絡(luò )進(jìn)行對比

對于那些有計算機視覺(jué)背景的人來(lái)說(shuō)，這個(gè)向量傳遞過(guò)程，會(huì )讓人聯(lián)想到 VGGNet 等網(wǎng)絡(luò )的卷積部分，和網(wǎng)絡(luò )最后的全連接分類(lèi)部分之間的過(guò)程。

七、詞嵌入（Embedding）的新時(shí)代

上面提到的這些新發(fā)展帶來(lái)了文本編碼方式的新轉變。到目前為止，詞嵌入一直是 NLP 模型處理語(yǔ)言的主要表示方法。像 Word2Vec 和 Glove 這樣的方法已經(jīng)被廣泛應用于此類(lèi)任務(wù)。在我們討論新的方法之前，讓我們回顧一下它們是如何應用的。

7.1 回顧詞嵌入

單詞不能直接輸入機器學(xué)習模型，而需要某種數值表示形式，以便模型能夠在計算中使用。通過(guò) Word2Vec，我們可以使用一個(gè)向量（一組數字）來(lái)恰當地表示單詞，并捕捉單詞的語(yǔ)義以及單詞和單詞之間的關(guān)系（例如，判斷單詞是否相似或者相反，或者像 "Stockholm" 和 "Sweden" 這樣的一對詞，與 "Cairo" 和 "Egypt"這一對詞，是否有同樣的關(guān)系）以及句法、語(yǔ)法關(guān)系（例如，"had" 和 "has" 之間的關(guān)系與 "was" 和 "is" 之間的關(guān)系相同）。

人們很快意識到，相比于在小規模數據集上和模型一起訓練詞嵌入，更好的一種做法是，在大規模文本數據上預訓練好詞嵌入，然后拿來(lái)使用。因此，我們可以下載由 Word2Vec 和 GloVe 預訓練好的單詞列表，及其詞嵌入。下面是單詞 "stick" 的 Glove 詞嵌入向量的例子（詞嵌入向量長(cháng)度是 200）。

單詞 "stick" 的 Glove 詞嵌入 - 一個(gè)由200個(gè)浮點(diǎn)數組成的向量（四舍五入到小數點(diǎn)后兩位）。

由于這些向量都很長(cháng)，且全部是數字，所以在文章中我使用以下基本形狀來(lái)表示向量：

7.2 ELMo：語(yǔ)境問(wèn)題

如果我們使用 Glove 的詞嵌入表示方法，那么不管上下文是什么，單詞 "stick" 都只表示為同一個(gè)向量。一些研究人員指出，像 "stick" 這樣的詞有多種含義。為什么不能根據它使用的上下文來(lái)學(xué)習對應的詞嵌入呢？這樣既能捕捉單詞的語(yǔ)義信息，又能捕捉上下文的語(yǔ)義信息。于是，語(yǔ)境化的詞嵌入模型應運而生。

語(yǔ)境化的詞嵌入，可以根據單詞在句子語(yǔ)境中的含義，賦予不同的詞嵌入。你可以查看這個(gè)視頻 RIP Robin Williams（https://zhuanlan.zhihu.com/RIP Robin Williams）

ELMo 沒(méi)有對每個(gè)單詞使用固定的詞嵌入，而是在為每個(gè)詞分配詞嵌入之前，查看整個(gè)句子，融合上下文信息。它使用在特定任務(wù)上經(jīng)過(guò)訓練的雙向 LSTM 來(lái)創(chuàng )建這些詞嵌入。

ELMo 在語(yǔ)境化的預訓練這條道路上邁出了重要的一步。ELMo LSTM 會(huì )在一個(gè)大規模的數據集上進(jìn)行訓練，然后我們可以將它作為其他語(yǔ)言處理模型的一個(gè)部分，來(lái)處理自然語(yǔ)言任務(wù)。

那么 ELMo 的秘密是什么呢？

ELMo 通過(guò)訓練，預測單詞序列中的下一個(gè)詞，從而獲得了語(yǔ)言理解能力，這項任務(wù)被稱(chēng)為語(yǔ)言建模。要實(shí)現 ELMo 很方便，因為我們有大量文本數據，模型可以從這些數據中學(xué)習，而不需要額外的標簽。

ELMo 預訓練過(guò)程的其中一個(gè)步驟：以 "Let’s stick to" 作為輸入，預測下一個(gè)最有可能的單詞。這是一個(gè)語(yǔ)言建模任務(wù)。當我們在大規模數據集上訓練時(shí)，模型開(kāi)始學(xué)習語(yǔ)言的模式。例如，在 "hang" 這樣的詞之后，模型將會(huì )賦予 "out" 更高的概率（因為 "hang out" 是一個(gè)詞組），而不是 "camera"。

在上圖中，我們可以看到 ELMo 頭部上方展示了 LSTM 的每一步的隱藏層狀態(tài)向量。在這個(gè)預訓練過(guò)程完成后，這些隱藏層狀態(tài)在詞嵌入過(guò)程中派上用場(chǎng)。

ELMo 通過(guò)將隱藏層狀態(tài)（以及初始化的詞嵌入）以某種方式（向量拼接之后加權求和）結合在一起，實(shí)現了帶有語(yǔ)境化的詞嵌入。

7.3 ULM-FiT：NLP 領(lǐng)域的遷移學(xué)習

ULM-FiT 提出了一些方法來(lái)有效地利用模型在預訓練期間學(xué)習到的東西 - 這些東西不僅僅是詞嵌入，還有語(yǔ)境化的詞嵌入。ULM-FiT 提出了一個(gè)語(yǔ)言模型和一套流程，可以有效地為各種任務(wù)微調這個(gè)語(yǔ)言模型。

現在，NLP 可能終于找到了好的方法，可以像計算機視覺(jué)那樣進(jìn)行遷移學(xué)習了。

7.4 Transformer：超越 LSTM

Transformer 論文和代碼的發(fā)布，以及它在機器翻譯等任務(wù)上取得的成果，開(kāi)始讓人們認為它是 LSTM 的替代品。這是因為 Transformer 可以比 LSTM 更好地處理長(cháng)期依賴(lài)。

Transformer 的 Encoder-Decoder 結構使得它非常適合機器翻譯。但你怎么才能用它來(lái)做文本分類(lèi)呢？你怎么才能使用它來(lái)預訓練一個(gè)語(yǔ)言模型，并能夠在其他任務(wù)上進(jìn)行微調（下游任務(wù)是指那些能夠利用預訓練模型的監督學(xué)習任務(wù)）？

7.5 OpenAI Transformer：預訓練一個(gè) Transformer Decoder 來(lái)進(jìn)行語(yǔ)言建模

事實(shí)證明，我們不需要一個(gè)完整的 Transformer 來(lái)進(jìn)行遷移學(xué)習和微調。我們只需要 Transformer 的 Decoder 就可以了。Decoder 是一個(gè)很好的選擇，用它來(lái)做語(yǔ)言建模（預測下一個(gè)詞）是很自然的，因為它可以屏蔽后來(lái)的詞。當你使用它進(jìn)行逐詞翻譯時(shí)，這是個(gè)很有用的特性。

OpenAI Transformer 是由 Transformer 的 Decoder 堆疊而成的

這個(gè)模型包括 12 個(gè) Decoder 層。因為在這種設計中沒(méi)有 Encoder，這些 Decoder 層不會(huì )像普通的 Transformer 中的 Decoder 層那樣有 Encoder-Decoder Attention 子層。不過(guò)，它仍然會(huì )有 Self Attention 層（這些層使用了 mask，因此不會(huì )看到句子后來(lái)的 token）。

有了這個(gè)結構，我們可以繼續在同樣的語(yǔ)言建模任務(wù)上訓練這個(gè)模型：使用大規模未標記的數據來(lái)預測下一個(gè)詞。只需要把 7000 本書(shū)的文字扔給模型，然后讓它學(xué)習。書(shū)籍非常適合這種任務(wù)，因為書(shū)籍的數據可以使得模型學(xué)習到相關(guān)聯(lián)的信息。如果你使用 tweets 或者文章來(lái)訓練，模型是得不到這些信息的。

上圖表示：OpenAI Transformer 在 7000 本書(shū)的組成的數據集中預測下一個(gè)單詞。

7.6 下游任務(wù)的遷移學(xué)習

現在，OpenAI Transformer 已經(jīng)經(jīng)過(guò)了預訓練，它的網(wǎng)絡(luò )層經(jīng)過(guò)調整，可以很好地處理文本語(yǔ)言，我們可以開(kāi)始使用它來(lái)處理下游任務(wù)。讓我們先看下句子分類(lèi)任務(wù)（把電子郵件分類(lèi)為 ”垃圾郵件“ 或者 ”非垃圾郵件“）：

OpenAI 的論文列出了一些列輸入變換方法，來(lái)處理不同任務(wù)類(lèi)型的輸入。下面這張圖片來(lái)源于論文，展示了執行不同任務(wù)的模型結構和對應輸入變換。這些都是非常很巧妙的做法。

八、BERT：從 Decoder 到 Encoder

OpenAI Transformer 為我們提供了一個(gè)基于 Transformer 的可以微調的預訓練網(wǎng)絡(luò )。但是在把 LSTM 換成 Transformer 的過(guò)程中，有些東西丟失了。ELMo 的語(yǔ)言模型是雙向的，但 OpenAI Transformer 只訓練了一個(gè)前向的語(yǔ)言模型。我們是否可以構建一個(gè)基于 Transformer 的語(yǔ)言模型，它既向前看，又向后看（用技術(shù)術(shù)語(yǔ)來(lái)說(shuō) - 融合上文和下文的信息）。

8.1 Masked Language Model（MLM 語(yǔ)言模型）

那么如何才能像 LSTM 那樣，融合上文和下文的雙向信息呢？

一種直觀(guān)的想法是使用 Transformer 的 Encoder。但是 Encoder 的 Self Attention 層，每個(gè) token 會(huì )把大部分注意力集中到自己身上，那么這樣將容易預測到每個(gè) token，模型學(xué)不到有用的信息。BERT 提出使用 mask，把需要預測的詞屏蔽掉。

下面這段風(fēng)趣的對話(huà)是博客原文的。

“

BERT 說(shuō)，“我們要用 Transformer 的 Encoder”。

Ernie 說(shuō)，”這沒(méi)什么用，因為每個(gè) token 都會(huì )在多層的雙向上下文中看到自己“。

BERT 自信地說(shuō)，”我們會(huì )使用 mask“。

”

BERT 在語(yǔ)言建模任務(wù)中，巧妙地屏蔽了輸入中 15% 的單詞，并讓模型預測這些屏蔽位置的單詞。

找到合適的任務(wù)來(lái)訓練一個(gè) Transformer 的 Encoder 是一個(gè)復雜的問(wèn)題，BERT 通過(guò)使用早期文獻中的 "masked language model" 概念（在這里被稱(chēng)為完形填空）來(lái)解決這個(gè)問(wèn)題。

除了屏蔽輸入中 15% 的單詞外， BERT 還混合使用了其他的一些技巧，來(lái)改進(jìn)模型的微調方式。例如，有時(shí)它會(huì )隨機地用一個(gè)詞替換另一個(gè)詞，然后讓模型預測這個(gè)位置原來(lái)的實(shí)際單詞。

8.2 兩個(gè)句子的任務(wù)

如果你回顧 OpenAI Transformer 在處理不同任務(wù)時(shí)所做的輸入變換，你會(huì )注意到有些任務(wù)需要模型對兩個(gè)句子的信息做一些處理（例如，判斷它們是不是同一句話(huà)的不同解釋。將一個(gè)維基百科條目作為輸入，再將一個(gè)相關(guān)的問(wèn)題作為另一個(gè)輸入，模型判斷是否可以回答這個(gè)問(wèn)題）。

為了讓 BERT 更好地處理多個(gè)句子之間的關(guān)系，預訓練過(guò)程還包括一個(gè)額外的任務(wù)：給出兩個(gè)句子（A 和 B），判斷 B 是否是 A 后面的相鄰句子。

BERT 預訓練的第 2 個(gè)任務(wù)是兩個(gè)句子的分類(lèi)任務(wù)。在上圖中，tokenization 這一步被簡(jiǎn)化了，因為 BERT 實(shí)際上使用了 WordPieces 作為 token，而不是使用單詞本身。在 WordPiece 中，有些詞會(huì )被拆分成更小的部分。

8.3 BERT 在不同任務(wù)上的應用

BERT 的論文展示了 BERT 在多種任務(wù)上的應用。

8.4 將 BERT 用于特征提取

使用 BERT 并不是只有微調這一種方法。就像 ELMo 一樣，你可以使用預訓練的 BERT 來(lái)創(chuàng )建語(yǔ)境化的詞嵌入。然后你可以把這些詞嵌入用到你現有的模型中。論文里也提到，這種方法在命名實(shí)體識別任務(wù)中的效果，接近于微調 BERT 模型的效果。

那么哪種向量最適合作為上下文詞嵌入？我認為這取決于任務(wù)。論文里驗證了 6 種選擇（與微調后的 96.4 分的模型相比）：

8.5 如何使用 BERT

嘗試 BERT 的最佳方式是通過(guò)托管在 Google Colab 上的BERT FineTuning with Cloud TPUs。如果你之前從來(lái)沒(méi)有使用過(guò) Cloud TPU，那這也是一個(gè)很好的嘗試開(kāi)端，因為 BERT 代碼可以運行在 TPU、CPU 和 GPU。

下一步是查看BERT 倉庫中的代碼：

模型是在modeling.py（class BertModel）中定義的，和普通的 Transformer encoder 完全相同。

run_classifier.py是微調網(wǎng)絡(luò )的一個(gè)示例。它還構建了監督模型分類(lèi)層。如果你想構建自己的分類(lèi)器，請查看這個(gè)文件中的 create_model() 方法。

可以下載一些預訓練好的模型。這些模型包括 BERT Base、BERT Large，以及英語(yǔ)、中文和包括 102 種語(yǔ)言的多語(yǔ)言模型，這些模型都是在維基百科的數據上進(jìn)行訓練的。

BERT 不會(huì )將單詞作為 token。相反，它關(guān)注的是 WordPiece。tokenization.py就是 tokenizer，它會(huì )將你的單詞轉換為適合 BERT 的 wordPiece。

責任編輯：lq

聲明：本文內容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權轉載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習之用，如有內容侵權或者其他違規問(wèn)題，請聯(lián)系本站處理。舉報投訴

機器學(xué)習

機器學(xué)習

+關(guān)注

關(guān)注
66

文章
8179

瀏覽量
131126
自然語(yǔ)言處理

自然語(yǔ)言處理

+關(guān)注

關(guān)注
1

文章
511

瀏覽量
13256
nlp

nlp

+關(guān)注

關(guān)注
1

文章
465

瀏覽量
21881

原文標題：【NLP專(zhuān)欄】圖解 BERT 預訓練模型！

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉載請注明出處。

評論

相關(guān)推薦

談?wù)?十折交叉驗證訓練模型

談?wù)?十折交叉驗證訓練模型

的頭像

發(fā)表于 05-15 09:30 ?245次閱讀

大語(yǔ)言模型：原理與工程時(shí)間+小白初識大語(yǔ)言模型

種語(yǔ)言模型進(jìn)行預訓練，此處預訓練為自然語(yǔ)言處理領(lǐng)域的里程碑分詞技術(shù)（Tokenization） Word粒度：我/賊/喜歡/看/大語(yǔ)言

發(fā)表于 05-12 23:57

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應用

。關(guān)于大語(yǔ)言模型是否具備與人類(lèi)“系統2”相似的能力，存在廣泛的爭議。然而，隨著(zhù)模型參數量的增加和大規模預訓練的實(shí)施，大語(yǔ)言模型展現出了與

發(fā)表于 05-07 17:21

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預訓練

大語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數量，這賦予了模型強大的學(xué)習容量，使其無(wú)需依賴(lài)微調即可適應各種下游任務(wù)，而更傾向于培養通用的處理能力。然而，隨著(zhù)學(xué)習容量的增加，對預訓練數據的需求也相

發(fā)表于 05-07 17:10

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎技術(shù)

模型架構奠定基礎。然后，引介一些經(jīng)典的預訓練模型，如BERT、GPT等。最后，解讀ChatGPT和LLaMA系列

發(fā)表于 05-05 12:17

【大語(yǔ)言模型：原理與工程實(shí)踐】核心技術(shù)綜述

其預訓練和微調，直到模型的部署和性能評估。以下是對這些技術(shù)的綜述：模型架構: LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò )架構，最常見(jiàn)的是Transformer網(wǎng)絡(luò )，它包含多個(gè)自注意力層，能夠捕

發(fā)表于 05-05 10:56

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

了如BERT和GPT等劃時(shí)代的模型。BERT通過(guò)雙向訓練增強了文本理解能力，而GPT則展示了強大的文本生成能力。大語(yǔ)言模型，擁有數百億甚

發(fā)表于 05-04 23:55

谷歌模型訓練軟件有哪些？谷歌模型訓練軟件哪個(gè)好？

谷歌在模型訓練方面提供了一些強大的軟件工具和平臺。以下是幾個(gè)常用的谷歌模型訓練軟件及其特點(diǎn)。

的頭像

發(fā)表于 03-01 16:24 ?396次閱讀

谷歌模型訓練軟件有哪些功能和作用

谷歌模型訓練軟件主要是指ELECTRA，這是一種新的預訓練方法，源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢，而且在效率上更勝一籌。

的頭像

發(fā)表于 02-29 17:37 ?474次閱讀

模型與人類(lèi)的注意力視角下參數規模擴大與指令微調對模型語(yǔ)言理解的作用

近期的大語(yǔ)言模型（LLM）在自然語(yǔ)言理解和生成上展現出了接近人類(lèi)的強大能力，遠遠優(yōu)于先前的BERT等預訓練模型（PLM）。

的頭像

發(fā)表于 01-04 14:06 ?208次閱讀

<b class='flag-5'>模型</b>與人類(lèi)的注意力視角下參數規模擴大與指令微調對<b class='flag-5'>模型</b>語(yǔ)言理解的作用

基于BERT算法搭建一個(gè)問(wèn)答搜索引擎

鼎鼎大名的 Bert 算法相信大部分同學(xué)都聽(tīng)說(shuō)過(guò)，它是Google推出的NLP領(lǐng)域“王炸級”預訓練模型，其在NLP任務(wù)中刷新了多項記錄，并取得state of the art的成績(jì)。但是有很多深度

的頭像

發(fā)表于 10-30 11:46 ?407次閱讀

基于<b class='flag-5'>BERT</b>算法搭建一個(gè)問(wèn)答搜索引擎

訓練大語(yǔ)言模型帶來(lái)的硬件挑戰

生成式AI和大語(yǔ)言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡(jiǎn)要介紹了大語(yǔ)言模型，訓練這些模型帶來(lái)的硬件挑戰，以及GPU和網(wǎng)絡(luò )行業(yè)如何針對

的頭像

發(fā)表于 09-01 17:14 ?1206次閱讀

<b class='flag-5'>訓練</b>大語(yǔ)言<b class='flag-5'>模型</b>帶來(lái)的硬件挑戰

卷積神經(jīng)網(wǎng)絡(luò )模型訓練步驟

卷積神經(jīng)網(wǎng)絡(luò )模型訓練步驟? 卷積神經(jīng)網(wǎng)絡(luò )（Convolutional Neural Network, CNN）是一種常用的深度學(xué)習算法，廣泛應用于圖像識別、語(yǔ)音識別、自然語(yǔ)言處理等諸多領(lǐng)域。CNN

的頭像

發(fā)表于 08-21 16:42 ?1291次閱讀

訓練好的ai模型導入cubemx不成功怎么解決？

訓練好的ai模型導入cubemx不成功咋辦，試了好幾個(gè)模型壓縮了也不行，ram占用過(guò)大，有無(wú)解決方案？

發(fā)表于 08-04 09:16

Multi-CLS BERT：傳統集成的有效替代方案

在 GLUE 和 SuperGLUE 數據集上進(jìn)行了實(shí)驗，證明了 Multi-CLS BERT 在提高整體準確性和置信度估計方面的可靠性。它甚至能夠在訓練樣本有限的情況下超越更大的 BERT

發(fā)表于 07-04 15:47 ?502次閱讀

深度學(xué)習自然語(yǔ)言處理
專(zhuān)欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁(yè)

Hot 一個(gè)給NLP領(lǐng)域帶來(lái)革新的預訓練語(yǔ)言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 什么是RAG，RAG學(xué)習和實(shí)踐經(jīng)驗
New MOE與MOT：提升LLM效能的關(guān)鍵策略比較

精選推薦
更多

文章

資料

帖子

瑞薩雙通道同步升壓控制器ISL81805調試經(jīng)驗分享及總結

駿龍電子
11小時(shí)前

459 閱讀

RL78/F24 CANFD參考例程

瑞薩MCU小百科
15小時(shí)前

284 閱讀

如何移植libwebsockets

ElfBoard
16小時(shí)前

384 閱讀

使用理想二極管控制器的汽車(chē)應用冗余電源拓撲

德州儀器
19小時(shí)前

411 閱讀

電力電子中的電大、電小尺寸？

英飛凌工業(yè)半導體
2天前

304 閱讀

Nokia 5800拆機圖解

yezi888
2.41 MB

免費

1783下載

道勤數碼播放器使用說(shuō)明書(shū)

lanlanw
7.45 MB

免費

29下載

四大絕招，讓你的Boost電路更安全！

Hx
290KB

免費

210下載

無(wú)刷電機資料大全（基本原理+接線(xiàn)方法+解決方案）

1.40 MB

3積分

143下載

如何自己制作一個(gè)開(kāi)源呼吸機

久醉不醒
0.45 MB

5積分

31下載

FPGA 高級設計：時(shí)序分析和收斂

FPGA技術(shù)江湖
1天前

133 閱讀

為什么我的電源會(huì )出現振鈴和過(guò)熱？

久醉不醒
1天前

285 閱讀

無(wú)線(xiàn)鼠標主板，可以自己照著(zhù)做嗎？

angel725
2天前

585 閱讀

【Vision Board創(chuàng )客營(yíng)連載體驗】基于Vision Board的垃圾分類(lèi)

大菠蘿Alpha
2天前

302 閱讀

【Vision Board創(chuàng )客營(yíng)連載體驗】使用 Vision Board 做一個(gè) UVC Camera

ouxiaolong
3天前

291 閱讀

推薦專(zhuān)欄
更多

華秋（原“華強聚豐”）：

電子發(fā)燒友

華秋開(kāi)發(fā)

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網(wǎng)站地圖

設計技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測量?jì)x表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無(wú)線(xiàn)

接口/總線(xiàn)/驅動(dòng)

處理器/DSP

EDA/IC設計

存儲技術(shù)

光電顯示

EMC/EMI設計

連接器

行業(yè)應用

LEDs

汽車(chē)電子

音視頻及家電

通信網(wǎng)絡(luò )

醫療電子

人工智能

虛擬現實(shí)

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動(dòng)通信

工業(yè)控制

便攜設備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區塊鏈

新科技

特色內容

專(zhuān)欄推薦

學(xué)院

設計資源

設計技術(shù)

電子百科

電子視頻

元器件知識

工具箱

VIP會(huì )員

最新技術(shù)文章

社區

小組

論壇

問(wèn)答

評測試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應鏈服務(wù)

硬件開(kāi)發(fā)

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務(wù)

網(wǎng)站廣告

在線(xiàn)研討會(huì )

活動(dòng)策劃

新聞發(fā)布

新品發(fā)布

小測驗

設計大賽

華秋

關(guān)于我們

投資關(guān)系

新聞動(dòng)態(tài)

加入我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡(luò )

微博

移動(dòng)端

發(fā)燒友APP

硬聲APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務(wù) PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關(guān)注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀(guān)察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡(jiǎn)介

企業(yè)動(dòng)態(tài)

聯(lián)系我們

企業(yè)文化

企業(yè)宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證：合字B2-20210191 工商網(wǎng)監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看