0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區
會(huì )員中心
創(chuàng )作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內不再提示

圖解BERT預訓練模型!

深度學(xué)習自然語(yǔ)言處理 ? 來(lái)源:Datawhale ? 作者:張賢 ? 2020-11-24 10:08 ? 次閱讀

一、前言

2018 年是機器學(xué)習模型處理文本(或者更準確地說(shuō),自然語(yǔ)言處理或 NLP)的轉折點(diǎn)。我們對這些方面的理解正在迅速發(fā)展:如何最好地表示單詞和句子,從而最好地捕捉基本語(yǔ)義和關(guān)系?此外,NLP 社區已經(jīng)發(fā)布了非常強大的組件,你可以免費下載,并在自己的模型和 pipeline 中使用(今年可以說(shuō)是 NLP 的 ImageNet 時(shí)刻,這句話(huà)指的是多年前類(lèi)似的發(fā)展也加速了 機器學(xué)習在計算機視覺(jué)任務(wù)中的應用)。

ULM-FiT 與 Cookie Monster(餅干怪獸)無(wú)關(guān)。但我想不出別的了...

BERT的發(fā)布是這個(gè)領(lǐng)域發(fā)展的最新的里程碑之一,這個(gè)事件標志著(zhù)NLP 新時(shí)代的開(kāi)始。BERT模型打破了基于語(yǔ)言處理的任務(wù)的幾個(gè)記錄。在 BERT 的論文發(fā)布后不久,這個(gè)團隊還公開(kāi)了模型的代碼,并提供了模型的下載版本,這些模型已經(jīng)在大規模數據集上進(jìn)行了預訓練。這是一個(gè)重大的發(fā)展,因為它使得任何一個(gè)構建構建機器學(xué)習模型來(lái)處理語(yǔ)言的人,都可以將這個(gè)強大的功能作為一個(gè)現成的組件來(lái)使用,從而節省了從零開(kāi)始訓練語(yǔ)言處理模型所需要的時(shí)間、精力、知識和資源。

BERT 開(kāi)發(fā)的兩個(gè)步驟:第 1 步,你可以下載預訓練好的模型(這個(gè)模型是在無(wú)標注的數據上訓練的)。然后在第 2 步只需要關(guān)心模型微調即可。

你需要注意一些事情,才能理解 BERT 是什么。因此,在介紹模型本身涉及的概念之前,讓我們先看看如何使用 BERT。

二、示例:句子分類(lèi)

使用 BERT 最直接的方法就是對一個(gè)句子進(jìn)行分類(lèi)。這個(gè)模型如下所示:

為了訓練這樣一個(gè)模型,你主要需要訓練分類(lèi)器(上圖中的 Classifier),在訓練過(guò)程中 幾乎不用改動(dòng)BERT模型。這個(gè)訓練過(guò)程稱(chēng)為微調,它起源于Semi-supervised Sequence Learning 和 ULMFiT。

由于我們在討論分類(lèi)器,這屬于機器學(xué)習的監督學(xué)習領(lǐng)域。這意味著(zhù)我們需要一個(gè)帶有標簽的數據集來(lái)訓練這樣一個(gè)模型。例如,在下面這個(gè)垃圾郵件分類(lèi)器的例子中,帶有標簽的數據集包括一個(gè)郵件內容列表和對應的標簽(每個(gè)郵件是“垃圾郵件”或者“非垃圾郵件”)。

其他一些例子包括:

1)語(yǔ)義分析

輸入:電影或者產(chǎn)品的評價(jià)。輸出:判斷這個(gè)評價(jià)是正面的還是負面的。

數據集示例:SST (https://nlp.stanford.edu/sentiment)

2)Fact-checking

輸入:一個(gè)句子。輸出:這個(gè)句子是不是一個(gè)斷言

參考視頻:https://www.youtube.com/watch?v=ddf0lgPCoSo

三、模型架構

現在你已經(jīng)通過(guò)上面的例子,了解了如何使用 BERT,接下來(lái)讓我們更深入地了解一下它的工作原理。

論文里介紹了兩種不同模型大小的 BERT:

BERT BASE - 與 OpenAI 的 Transformer 大小相當,以便比較性能

BERT LARGE - 一個(gè)非常巨大的模型,它取得了最先進(jìn)的結果

BERT 基本上是一個(gè)訓練好的 Transformer 的 decoder 的棧。關(guān)于 Transformer 的介紹,可以閱讀之前的文章《 圖解Transformer(完整版)!》,這里主要介紹 Transformer 模型,這是 BERT 中的一個(gè)基本概念。此外,我們還會(huì )介紹其他一些概念。

2 種不同大小規模的 BERT 模型都有大量的 Encoder 層(論文里把這些層稱(chēng)為 Transformer Blocks)- BASE 版本由 12 層 Encoder,Large 版本有 20 層 Encoder。同時(shí),這些 BERT 模型也有更大的前饋神經(jīng)網(wǎng)絡(luò )(分別有 768 個(gè)和 1024 個(gè)隱藏層單元)和更多的 attention heads(分別有 12 個(gè)和 16 個(gè)),超過(guò)了原始 Transformer 論文中的默認配置參數(原論文中有 6 個(gè) Encoder 層, 512 個(gè)隱藏層單元和 8 個(gè) attention heads)。

四、模型輸入

第一個(gè)輸入的 token 是特殊的 [CLS],它 的含義是分類(lèi)(class的縮寫(xiě))。

就像 Transformer 中普通的 Encoder 一樣,BERT 將一串單詞作為輸入,這些單詞在 Encoder 的棧中不斷向上流動(dòng)。每一層都會(huì )經(jīng)過(guò) Self Attention 層,并通過(guò)一個(gè)前饋神經(jīng)網(wǎng)絡(luò ),然后將結果傳給下一個(gè) Encoder。

在模型架構方面,到目前為止,和 Transformer 是相同的(除了模型大小,因為這是我們可以改變的參數)。我們會(huì )在下面看到,BERT 和 Transformer 在模型的輸出上有一些不同。

五、模型輸出

每個(gè)位置輸出一個(gè)大小為 hidden_size(在 BERT Base 中是 768)的向量。對于上面提到的句子分類(lèi)的例子,我們只關(guān)注第一個(gè)位置的輸出(輸入是 [CLS] 的那個(gè)位置)。

這個(gè)輸出的向量現在可以作為后面分類(lèi)器的輸入。論文里用單層神經(jīng)網(wǎng)絡(luò )作為分類(lèi)器,取得了很好的效果。

如果你有更多標簽(例如你是一個(gè)電子郵件服務(wù),需要將郵件標記為 “垃圾郵件”、“非垃圾郵件”、“社交”、“推廣”),你只需要調整分類(lèi)器的神經(jīng)網(wǎng)絡(luò ),增加輸出的神經(jīng)元個(gè)數,然后經(jīng)過(guò) softmax 即可。

六、與卷積神經(jīng)網(wǎng)絡(luò )進(jìn)行對比

對于那些有計算機視覺(jué)背景的人來(lái)說(shuō),這個(gè)向量傳遞過(guò)程,會(huì )讓人聯(lián)想到 VGGNet 等網(wǎng)絡(luò )的卷積部分,和網(wǎng)絡(luò )最后的全連接分類(lèi)部分之間的過(guò)程。

七、詞嵌入(Embedding)的新時(shí)代

上面提到的這些新發(fā)展帶來(lái)了文本編碼方式的新轉變。到目前為止,詞嵌入一直是 NLP 模型處理語(yǔ)言的主要表示方法。像 Word2Vec 和 Glove 這樣的方法已經(jīng)被廣泛應用于此類(lèi)任務(wù)。在我們討論新的方法之前,讓我們回顧一下它們是如何應用的。

7.1 回顧詞嵌入

單詞不能直接輸入機器學(xué)習模型,而需要某種數值表示形式,以便模型能夠在計算中使用。通過(guò) Word2Vec,我們可以使用一個(gè)向量(一組數字)來(lái)恰當地表示單詞,并捕捉單詞的語(yǔ)義以及單詞和單詞之間的關(guān)系(例如,判斷單詞是否相似或者相反,或者像 "Stockholm" 和 "Sweden" 這樣的一對詞,與 "Cairo" 和 "Egypt"這一對詞,是否有同樣的關(guān)系)以及句法、語(yǔ)法關(guān)系(例如,"had" 和 "has" 之間的關(guān)系與 "was" 和 "is" 之間的關(guān)系相同)。

人們很快意識到,相比于在小規模數據集上和模型一起訓練詞嵌入,更好的一種做法是,在大規模文本數據上預訓練好詞嵌入,然后拿來(lái)使用。因此,我們可以下載由 Word2Vec 和 GloVe 預訓練好的單詞列表,及其詞嵌入。下面是單詞 "stick" 的 Glove 詞嵌入向量的例子(詞嵌入向量長(cháng)度是 200)。

單詞 "stick" 的 Glove 詞嵌入 - 一個(gè)由200個(gè)浮點(diǎn)數組成的向量(四舍五入到小數點(diǎn)后兩位)。

由于這些向量都很長(cháng),且全部是數字,所以在文章中我使用以下基本形狀來(lái)表示向量:

7.2 ELMo:語(yǔ)境問(wèn)題

如果我們使用 Glove 的詞嵌入表示方法,那么不管上下文是什么,單詞 "stick" 都只表示為同一個(gè)向量。一些研究人員指出,像 "stick" 這樣的詞有多種含義。為什么不能根據它使用的上下文來(lái)學(xué)習對應的詞嵌入呢?這樣既能捕捉單詞的語(yǔ)義信息,又能捕捉上下文的語(yǔ)義信息。于是,語(yǔ)境化的詞嵌入模型應運而生。

語(yǔ)境化的詞嵌入,可以根據單詞在句子語(yǔ)境中的含義,賦予不同的詞嵌入。你可以查看這個(gè)視頻 RIP Robin Williams(https://zhuanlan.zhihu.com/RIP Robin Williams)

ELMo 沒(méi)有對每個(gè)單詞使用固定的詞嵌入,而是在為每個(gè)詞分配詞嵌入之前,查看整個(gè)句子,融合上下文信息。它使用在特定任務(wù)上經(jīng)過(guò)訓練的雙向 LSTM 來(lái)創(chuàng )建這些詞嵌入。

ELMo 在語(yǔ)境化的預訓練這條道路上邁出了重要的一步。ELMo LSTM 會(huì )在一個(gè)大規模的數據集上進(jìn)行訓練,然后我們可以將它作為其他語(yǔ)言處理模型的一個(gè)部分,來(lái)處理自然語(yǔ)言任務(wù)。

那么 ELMo 的秘密是什么呢?

ELMo 通過(guò)訓練,預測單詞序列中的下一個(gè)詞,從而獲得了語(yǔ)言理解能力,這項任務(wù)被稱(chēng)為語(yǔ)言建模。要實(shí)現 ELMo 很方便,因為我們有大量文本數據,模型可以從這些數據中學(xué)習,而不需要額外的標簽。

ELMo 預訓練過(guò)程的其中一個(gè)步驟:以 "Let’s stick to" 作為輸入,預測下一個(gè)最有可能的單詞。這是一個(gè)語(yǔ)言建模任務(wù)。當我們在大規模數據集上訓練時(shí),模型開(kāi)始學(xué)習語(yǔ)言的模式。例如,在 "hang" 這樣的詞之后,模型將會(huì )賦予 "out" 更高的概率(因為 "hang out" 是一個(gè)詞組),而不是 "camera"。

在上圖中,我們可以看到 ELMo 頭部上方展示了 LSTM 的每一步的隱藏層狀態(tài)向量。在這個(gè)預訓練過(guò)程完成后,這些隱藏層狀態(tài)在詞嵌入過(guò)程中派上用場(chǎng)。

ELMo 通過(guò)將隱藏層狀態(tài)(以及初始化的詞嵌入)以某種方式(向量拼接之后加權求和)結合在一起,實(shí)現了帶有語(yǔ)境化的詞嵌入。

7.3 ULM-FiT:NLP 領(lǐng)域的遷移學(xué)習

ULM-FiT 提出了一些方法來(lái)有效地利用模型在預訓練期間學(xué)習到的東西 - 這些東西不僅僅是詞嵌入,還有語(yǔ)境化的詞嵌入。ULM-FiT 提出了一個(gè)語(yǔ)言模型和一套流程,可以有效地為各種任務(wù)微調這個(gè)語(yǔ)言模型。

現在,NLP 可能終于找到了好的方法,可以像計算機視覺(jué)那樣進(jìn)行遷移學(xué)習了。

7.4 Transformer:超越 LSTM

Transformer 論文和代碼的發(fā)布,以及它在機器翻譯等任務(wù)上取得的成果,開(kāi)始讓人們認為它是 LSTM 的替代品。這是因為 Transformer 可以比 LSTM 更好地處理長(cháng)期依賴(lài)。

Transformer 的 Encoder-Decoder 結構使得它非常適合機器翻譯。但你怎么才能用它來(lái)做文本分類(lèi)呢?你怎么才能使用它來(lái)預訓練一個(gè)語(yǔ)言模型,并能夠在其他任務(wù)上進(jìn)行微調(下游任務(wù)是指那些能夠利用預訓練模型的監督學(xué)習任務(wù))?

7.5 OpenAI Transformer:預訓練一個(gè) Transformer Decoder 來(lái)進(jìn)行語(yǔ)言建模

事實(shí)證明,我們不需要一個(gè)完整的 Transformer 來(lái)進(jìn)行遷移學(xué)習和微調。我們只需要 Transformer 的 Decoder 就可以了。Decoder 是一個(gè)很好的選擇,用它來(lái)做語(yǔ)言建模(預測下一個(gè)詞)是很自然的,因為它可以屏蔽后來(lái)的詞 。當你使用它進(jìn)行逐詞翻譯時(shí),這是個(gè)很有用的特性。

OpenAI Transformer 是由 Transformer 的 Decoder 堆疊而成的

這個(gè)模型包括 12 個(gè) Decoder 層。因為在這種設計中沒(méi)有 Encoder,這些 Decoder 層不會(huì )像普通的 Transformer 中的 Decoder 層那樣有 Encoder-Decoder Attention 子層。不過(guò),它仍然會(huì )有 Self Attention 層(這些層使用了 mask,因此不會(huì )看到句子后來(lái)的 token)。

有了這個(gè)結構,我們可以繼續在同樣的語(yǔ)言建模任務(wù)上訓練這個(gè)模型:使用大規模未標記的數據來(lái)預測下一個(gè)詞。只需要把 7000 本書(shū)的文字扔給模型 ,然后讓它學(xué)習。書(shū)籍非常適合這種任務(wù),因為書(shū)籍的數據可以使得模型學(xué)習到相關(guān)聯(lián)的信息。如果你使用 tweets 或者文章來(lái)訓練,模型是得不到這些信息的。

上圖表示:OpenAI Transformer 在 7000 本書(shū)的組成的數據集中預測下一個(gè)單詞。

7.6 下游任務(wù)的遷移學(xué)習

現在,OpenAI Transformer 已經(jīng)經(jīng)過(guò)了預訓練,它的網(wǎng)絡(luò )層經(jīng)過(guò)調整,可以很好地處理文本語(yǔ)言,我們可以開(kāi)始使用它來(lái)處理下游任務(wù)。讓我們先看下句子分類(lèi)任務(wù)(把電子郵件分類(lèi)為 ”垃圾郵件“ 或者 ”非垃圾郵件“):

OpenAI 的論文列出了一些列輸入變換方法,來(lái)處理不同任務(wù)類(lèi)型的輸入。下面這張圖片來(lái)源于論文,展示了執行不同任務(wù)的模型結構和對應輸入變換。這些都是非常很巧妙的做法。

八、BERT:從 Decoder 到 Encoder

OpenAI Transformer 為我們提供了一個(gè)基于 Transformer 的可以微調的預訓練網(wǎng)絡(luò )。但是在把 LSTM 換成 Transformer 的過(guò)程中,有些東西丟失了。ELMo 的語(yǔ)言模型是雙向的,但 OpenAI Transformer 只訓練了一個(gè)前向的語(yǔ)言模型。我們是否可以構建一個(gè)基于 Transformer 的語(yǔ)言模型,它既向前看,又向后看(用技術(shù)術(shù)語(yǔ)來(lái)說(shuō) - 融合上文和下文的信息)。

8.1 Masked Language Model(MLM 語(yǔ)言模型)

那么如何才能像 LSTM 那樣,融合上文和下文的雙向信息呢?

一種直觀(guān)的想法是使用 Transformer 的 Encoder。但是 Encoder 的 Self Attention 層,每個(gè) token 會(huì )把大部分注意力集中到自己身上,那么這樣將容易預測到每個(gè) token,模型學(xué)不到有用的信息。BERT 提出使用 mask,把需要預測的詞屏蔽掉。

下面這段風(fēng)趣的對話(huà)是博客原文的。

BERT 說(shuō),“我們要用 Transformer 的 Encoder”。

Ernie 說(shuō),”這沒(méi)什么用,因為每個(gè) token 都會(huì )在多層的雙向上下文中看到自己“。

BERT 自信地說(shuō),”我們會(huì )使用 mask“。

BERT 在語(yǔ)言建模任務(wù)中,巧妙地屏蔽了輸入中 15% 的單詞,并讓模型預測這些屏蔽位置的單詞。

找到合適的任務(wù)來(lái)訓練一個(gè) Transformer 的 Encoder 是一個(gè)復雜的問(wèn)題,BERT 通過(guò)使用早期文獻中的 "masked language model" 概念(在這里被稱(chēng)為完形填空)來(lái)解決這個(gè)問(wèn)題。

除了屏蔽輸入中 15% 的單詞外, BERT 還混合使用了其他的一些技巧,來(lái)改進(jìn)模型的微調方式。例如,有時(shí)它會(huì )隨機地用一個(gè)詞替換另一個(gè)詞,然后讓模型預測這個(gè)位置原來(lái)的實(shí)際單詞。

8.2 兩個(gè)句子的任務(wù)

如果你回顧 OpenAI Transformer 在處理不同任務(wù)時(shí)所做的輸入變換,你會(huì )注意到有些任務(wù)需要模型對兩個(gè)句子的信息做一些處理(例如,判斷它們是不是同一句話(huà)的不同解釋。將一個(gè)維基百科條目作為輸入,再將一個(gè)相關(guān)的問(wèn)題作為另一個(gè)輸入,模型判斷是否可以回答這個(gè)問(wèn)題)。

為了讓 BERT 更好地處理多個(gè)句子之間的關(guān)系,預訓練過(guò)程還包括一個(gè)額外的任務(wù):給出兩個(gè)句子(A 和 B),判斷 B 是否是 A 后面的相鄰句子。

BERT 預訓練的第 2 個(gè)任務(wù)是兩個(gè)句子的分類(lèi)任務(wù)。在上圖中,tokenization 這一步被簡(jiǎn)化了,因為 BERT 實(shí)際上使用了 WordPieces 作為 token,而不是使用單詞本身。在 WordPiece 中,有些詞會(huì )被拆分成更小的部分。

8.3 BERT 在不同任務(wù)上的應用

BERT 的論文展示了 BERT 在多種任務(wù)上的應用。

8.4 將 BERT 用于特征提取

使用 BERT 并不是只有微調這一種方法。就像 ELMo 一樣,你可以使用預訓練的 BERT 來(lái)創(chuàng )建語(yǔ)境化的詞嵌入。然后你可以把這些詞嵌入用到你現有的模型中。論文里也提到,這種方法在命名實(shí)體識別任務(wù)中的效果,接近于微調 BERT 模型的效果。

那么哪種向量最適合作為上下文詞嵌入?我認為這取決于任務(wù)。論文里驗證了 6 種選擇(與微調后的 96.4 分的模型相比):

8.5 如何使用 BERT

嘗試 BERT 的最佳方式是通過(guò)托管在 Google Colab 上的BERT FineTuning with Cloud TPUs。如果你之前從來(lái)沒(méi)有使用過(guò) Cloud TPU,那這也是一個(gè)很好的嘗試開(kāi)端,因為 BERT 代碼可以運行在 TPU、CPUGPU。

下一步是查看BERT 倉庫中的代碼:

模型是在modeling.py(class BertModel)中定義的,和普通的 Transformer encoder 完全相同。

run_classifier.py是微調網(wǎng)絡(luò )的一個(gè)示例。它還構建了監督模型分類(lèi)層。如果你想構建自己的分類(lèi)器,請查看這個(gè)文件中的 create_model() 方法。

可以下載一些預訓練好的模型。這些模型包括 BERT Base、BERT Large,以及英語(yǔ)、中文和包括 102 種語(yǔ)言的多語(yǔ)言模型,這些模型都是在維基百科的數據上進(jìn)行訓練的。

BERT 不會(huì )將單詞作為 token。相反,它關(guān)注的是 WordPiece。tokenization.py就是 tokenizer,它會(huì )將你的單詞轉換為適合 BERT 的 wordPiece。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權轉載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習之用,如有內容侵權或者其他違規問(wèn)題,請聯(lián)系本站處理。 舉報投訴
  • 機器學(xué)習
    +關(guān)注

    關(guān)注

    66

    文章

    8179

    瀏覽量

    131126
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    511

    瀏覽量

    13256
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    465

    瀏覽量

    21881

原文標題:【NLP專(zhuān)欄】圖解 BERT 預訓練模型!

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    談?wù)?十折交叉驗證訓練模型

    談?wù)?十折交叉驗證訓練模型
    的頭像 發(fā)表于 05-15 09:30 ?245次閱讀

    大語(yǔ)言模型:原理與工程時(shí)間+小白初識大語(yǔ)言模型

    種語(yǔ)言模型進(jìn)行訓練,此處訓練為自然語(yǔ)言處理領(lǐng)域的里程碑 分詞技術(shù)(Tokenization) Word粒度:我/賊/喜歡/看/大語(yǔ)言
    發(fā)表于 05-12 23:57

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應用

    。 關(guān)于大語(yǔ)言模型是否具備與人類(lèi)“系統2”相似的能力,存在廣泛的爭議。然而,隨著(zhù)模型參數量的增加和大規模訓練的實(shí)施,大語(yǔ)言模型展現出了與
    發(fā)表于 05-07 17:21

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型訓練

    大語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數量,這賦予了模型強大的學(xué)習容量,使其無(wú)需依賴(lài)微調即可適應各種下游任務(wù),而更傾向于培養通用的處理能力。然而,隨著(zhù)學(xué)習容量的增加,對訓練數據的需求也相
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎技術(shù)

    模型架構奠定基礎。然后,引介一些經(jīng)典的訓練模型,如BERT、GPT等。最后,解讀ChatGPT和LLaMA系列
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    訓練和微調,直到模型的部署和性能評估。以下是對這些技術(shù)的綜述: 模型架構: LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò )架構,最常見(jiàn)的是Transformer網(wǎng)絡(luò ),它包含多個(gè)自注意力層,能夠捕
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    了如BERT和GPT等劃時(shí)代的模型。BERT通過(guò)雙向訓練增強了文本理解能力,而GPT則展示了強大的文本生成能力。 大語(yǔ)言模型,擁有數百億甚
    發(fā)表于 05-04 23:55

    谷歌模型訓練軟件有哪些?谷歌模型訓練軟件哪個(gè)好?

    谷歌在模型訓練方面提供了一些強大的軟件工具和平臺。以下是幾個(gè)常用的谷歌模型訓練軟件及其特點(diǎn)。
    的頭像 發(fā)表于 03-01 16:24 ?396次閱讀

    谷歌模型訓練軟件有哪些功能和作用

    谷歌模型訓練軟件主要是指ELECTRA,這是一種新的預訓練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢,而且在效率上更勝一籌。
    的頭像 發(fā)表于 02-29 17:37 ?474次閱讀

    模型與人類(lèi)的注意力視角下參數規模擴大與指令微調對模型語(yǔ)言理解的作用

    近期的大語(yǔ)言模型(LLM)在自然語(yǔ)言理解和生成上展現出了接近人類(lèi)的強大能力,遠遠優(yōu)于先前的BERT等預訓練模型(PLM)。
    的頭像 發(fā)表于 01-04 14:06 ?208次閱讀
    <b class='flag-5'>模型</b>與人類(lèi)的注意力視角下參數規模擴大與指令微調對<b class='flag-5'>模型</b>語(yǔ)言理解的作用

    基于BERT算法搭建一個(gè)問(wèn)答搜索引擎

    鼎鼎大名的 Bert 算法相信大部分同學(xué)都聽(tīng)說(shuō)過(guò),它是Google推出的NLP領(lǐng)域“王炸級”預訓練模型,其在NLP任務(wù)中刷新了多項記錄,并取得state of the art的成績(jì)。 但是有很多深度
    的頭像 發(fā)表于 10-30 11:46 ?407次閱讀
    基于<b class='flag-5'>BERT</b>算法搭建一個(gè)問(wèn)答搜索引擎

    訓練大語(yǔ)言模型帶來(lái)的硬件挑戰

    生成式AI和大語(yǔ)言模型(LLM)正在以難以置信的方式吸引全世界的目光,本文簡(jiǎn)要介紹了大語(yǔ)言模型,訓練這些模型帶來(lái)的硬件挑戰,以及GPU和網(wǎng)絡(luò )行業(yè)如何針對
    的頭像 發(fā)表于 09-01 17:14 ?1206次閱讀
    <b class='flag-5'>訓練</b>大語(yǔ)言<b class='flag-5'>模型</b>帶來(lái)的硬件挑戰

    卷積神經(jīng)網(wǎng)絡(luò )模型訓練步驟

    卷積神經(jīng)網(wǎng)絡(luò )模型訓練步驟? 卷積神經(jīng)網(wǎng)絡(luò )(Convolutional Neural Network, CNN)是一種常用的深度學(xué)習算法,廣泛應用于圖像識別、語(yǔ)音識別、自然語(yǔ)言處理等諸多領(lǐng)域。CNN
    的頭像 發(fā)表于 08-21 16:42 ?1291次閱讀

    訓練好的ai模型導入cubemx不成功怎么解決?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個(gè)模型壓縮了也不行,ram占用過(guò)大,有無(wú)解決方案?
    發(fā)表于 08-04 09:16

    Multi-CLS BERT:傳統集成的有效替代方案

    在 GLUE 和 SuperGLUE 數據集上進(jìn)行了實(shí)驗,證明了 Multi-CLS BERT 在提高整體準確性和置信度估計方面的可靠性。它甚至能夠在訓練樣本有限的情況下超越更大的 BERT
    的頭像 發(fā)表于 07-04 15:47 ?502次閱讀
    Multi-CLS <b class='flag-5'>BERT</b>:傳統集成的有效替代方案
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看