搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學(xué)習在線(xiàn)課程
觀(guān)看技術(shù)視頻
寫(xiě)文章/發(fā)帖/加入社區

會(huì )員中心

創(chuàng )作中心

發(fā)布

創(chuàng )作活動(dòng)

完善資料讓更多小伙伴認識你，還能領(lǐng)取20積分哦，立即完善>

3天內不再提示

一種基于亂序語(yǔ)言模型的預訓練模型-PERT

寫(xiě)在前面

今天分享給大家一篇哈工大訊飛聯(lián)合實(shí)驗室的論文，一種基于亂序語(yǔ)言模型的預訓練模型-PERT，全名《PERT: PRE-TRAINING BERT WITH PERMUTED LANGUAGE MODEL》。該篇論文的核心是，將MLM語(yǔ)言模型的掩碼詞預測任務(wù)，替換成詞序預測任務(wù)，也就是在不引入掩碼標記[MASK]的情況下自監督地學(xué)習文本語(yǔ)義信息，隨機將一段文本的部分詞序打亂，然后預測被打亂詞語(yǔ)的原始位置。

PERT模型的Github以及對應的開(kāi)源模型其實(shí)年前就出來(lái)了，只是論文沒(méi)有放出。今天一瞬間想起來(lái)去看一眼，這不，論文在3月14號的時(shí)候掛到了axirv上，今天分享給大家。

paper：https://arxiv.org/pdf/2203.06906.pdf
github：https://github.com/ymcui/PERT

介紹

預訓練語(yǔ)言模型（PLMs）目前在各種自然語(yǔ)言處理任務(wù)中均取得了優(yōu)異的效果。預訓練語(yǔ)言模型主要分為自編碼和自回歸兩種。自編碼PLMs的預訓練任務(wù)通常是掩碼語(yǔ)言模型任務(wù)，即在預訓練階段，使用[MASK]標記替換原始輸入文本中的一些token，并在詞匯表中恢復這些被[MASK]的token。

常用預訓練語(yǔ)言模型總結：https://zhuanlan.zhihu.com/p/406512290

那么，自編碼PLMs只能使用掩碼語(yǔ)言模型任務(wù)作為預訓練任務(wù)嗎？我們發(fā)現一個(gè)有趣的現象“在一段文本中隨機打亂幾個(gè)字并不會(huì )影響我們對這一段文本的理解”，如下圖所示，乍一看，可能沒(méi)有注意到句子中存在一些亂序詞語(yǔ)，并且可以抓住句子的中心意思。該論文探究了是否可以通過(guò)打亂句子中的字詞來(lái)學(xué)習上下文的文本表征，并提出了一個(gè)新的預訓練任務(wù)，即亂序語(yǔ)言模型（PerLM）。

模型

PERT模型結構如上圖所示。PERT模型結構與BERT模型結構相同，僅在模型輸入以及預訓練目標上略有不同。

PERT模型的細節如下：

采用亂序語(yǔ)言模型作為預訓練任務(wù)，預測目標為原始字詞的位置；
預測空間大小取決于輸入序列長(cháng)度，而不是整個(gè)詞表的大?。ㄑ诖a語(yǔ)言模型預測空間為詞表）；
不采用NSP任務(wù)；
通過(guò)全詞屏蔽和N-gram屏蔽策略來(lái)選擇亂序的候選標記；
亂序的候選標記的概率為15%，并且真正打亂順序僅占90%，剩余10%保持不變。

由于亂序語(yǔ)言模型不使用[MASK]標記，減輕了預訓練任務(wù)與微調任務(wù)之間的gap，并由于預測空間大小為輸入序列長(cháng)度，使得計算效率高于掩碼語(yǔ)言模型。PERT模型結構與BERT模型一致，因此在下游預訓練時(shí)，不需要修改原始BERT模型的任何代碼與腳本。注意，與預訓練階段不同，在微調階段使用正常的輸入序列，而不是打亂順序的序列。

中文實(shí)驗結果與分析

預訓練參數

數據：由中文維基百科、百科全書(shū)、社區問(wèn)答、新聞文章等組成，共5.4B字，大約20G。
訓練參數：詞表大小為21128，最大序列長(cháng)度為512，batch大小為416（base版模型）和128（large版模型），初始學(xué)習率為1e-4，使用 warmup動(dòng)態(tài)調節學(xué)習率，總訓練步數為2M，采用ADAM優(yōu)化器。
訓練設備：一臺TPU，128G。

機器閱讀理解MRC任務(wù)

在CMRC2018和DRCD兩個(gè)數據集上對機器閱讀理解任務(wù)進(jìn)行評測，結果如下表所示。
PERT模型相比于MacBERT模型有部分的提高，并且始終優(yōu)于其他模型。

文本分類(lèi)TC任務(wù)

在XNLI、LCQMC、BQ Corpus、ChnSentiCorp、TNEWS和OCNLI 6個(gè)數據集上對文本分類(lèi)任務(wù)進(jìn)行評測，結果如下表所示。

在文本分類(lèi)任務(wù)上，PERT模型表現不佳。推測與MRC任務(wù)相比，預訓練中的亂序文本給理解短文本帶來(lái)了困難。

命名實(shí)體識別NER任務(wù)

在MSRA-NER和People’s Daily兩個(gè)數據集上對命名實(shí)體識別任務(wù)進(jìn)行評測，結果如下表所示。

PERT模型相比于其他模型均取得最優(yōu)的效果，表明預訓練中的亂序文在序列標記任務(wù)中的良好能力。

對比機器閱讀理解、文本分類(lèi)和命名實(shí)體識別三個(gè)任務(wù)，可以發(fā)現，PERT模型在MRC和NER任務(wù)上表現較好，但在TC任務(wù)上表現不佳，這意味著(zhù)TC任務(wù)對詞語(yǔ)順序更加敏感，由于TC任務(wù)的輸入文本相對較短，有些詞語(yǔ)順序的改變會(huì )給輸入文本帶來(lái)完全的意義變化。然而，MRC任務(wù)的輸入文本通常很長(cháng)，幾個(gè)單詞的排列可能不會(huì )改變整個(gè)文章的敘述流程；并且對于NER任務(wù)，由于命名實(shí)體在整個(gè)輸入文本中只占很小的比例，因此詞語(yǔ)順序改變可能不會(huì )影響NER進(jìn)程。

語(yǔ)法檢查任務(wù)

在Wikipedia、Formal Doc、Customs和Legal 4個(gè)數據集上對文本分類(lèi)任務(wù)進(jìn)行評測語(yǔ)法檢查任務(wù)進(jìn)行評測，結果如下表所示。

PERT模型相比于其他模型均取得最優(yōu)的效果，這是由于下游任務(wù)與預訓練任務(wù)非常相似導致的。

預訓練的訓練步數對PERT模型的影響

不同的下游任務(wù)的最佳效果可能出現在不同的預訓練步驟上，如下圖所示。

我們發(fā)現對于MRC和NER任務(wù)，隨著(zhù)預訓練步數的增加，下游任務(wù)也會(huì )隨之提高。然而，對于TC任務(wù)，不同數據的指標在不同的步數上取得最優(yōu)。如果考慮到特定任務(wù)的效果，有必要在早期訓練中保存部分模型。

不同的打亂粒度對PERT模型的影響

不同粒度間的打亂，可以使使輸入文本更具可讀性。通過(guò)在不同粒度內亂序輸入文本來(lái)比較性能，如下表所示。

我們發(fā)現，在各種打亂粒度中，無(wú)限制亂序的PERT模型在所有任務(wù)中都取得了最優(yōu)的效果；而選擇最小粒度（詞語(yǔ)之間）的模型，效果最差?？赡茉蚴?，雖然使用更小的粒度的亂序可以使輸入文本更具可讀性，但是對預訓練任務(wù)的挑戰性較小，使模型不能學(xué)習到更好地語(yǔ)義信息。

不同預測空間對PERT模型的影響

將PERT模型使用詞表空間作為預測目標是否有效？如下表所示。

實(shí)驗結果表明，PERT模型不需要在詞表空間中進(jìn)行預測，其表現明顯差于在輸入序列上的預測；并且將兩者結合的效果也不盡如人意。

預測部分序列和預測全部序列對PERT模型的影響

ELECTRA模型的實(shí)驗發(fā)現預測完全序列的效果比部分序列的更好，因此ELECTRA模型采用RTD任務(wù)對判別器采用完全序列預測。但通過(guò)本論文實(shí)驗發(fā)現，預測完全序列在PERT模型中并沒(méi)有產(chǎn)生更好的效果。表明在預訓練任務(wù)中使用預測全部序列并不總是有效的，需要根據所設計的預訓練任務(wù)進(jìn)行調整。

總結

PERT模型的預訓練思路還是挺有意思的，并在MRC、NER和WOR任務(wù)上均取得了不錯的效果。并且由于結構與BERT模型一致，因此在下游任務(wù)使用時(shí)，僅修改預訓練模型加載路徑就實(shí)現了模型替換，也比較方便。當打比賽或者做業(yè)務(wù)時(shí)候，可以不妨試一試，說(shuō)不定有奇效。（ps：我在我們自己的MRC數據集上做過(guò)實(shí)驗，效果不錯呦?。。?/p>

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權轉載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習之用，如有內容侵權或者其他違規問(wèn)題，請聯(lián)系本站處理。舉報投訴

語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
463

瀏覽量
10152
自然語(yǔ)言處理

自然語(yǔ)言處理

+關(guān)注

關(guān)注
1

文章
511

瀏覽量
13256

原文標題：PERT：一種基于亂序語(yǔ)言模型的預訓練模型

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉載請注明出處。

評論

相關(guān)推薦

【大規模語(yǔ)言模型：從理論到實(shí)踐】- 每日進(jìn)步一點(diǎn)點(diǎn)

，特別是在NLP和大模型領(lǐng)域中被廣泛使用。 RMS Normalization（RMSNorm）原理：為了提升LayerNorm的訓練速度而提出的一種歸一化方法，利用均方根進(jìn)行歸

發(fā)表于 05-31 19:54

大語(yǔ)言模型：原理與工程實(shí)踐+初識2

的一系列變革。大語(yǔ)言模型是深度學(xué)習的應用之一，可以認為，這些模型的目標是模擬人類(lèi)交流，為了理解和生成人類(lèi)

發(fā)表于 05-13 00:09

大語(yǔ)言模型：原理與工程時(shí)間+小白初識大語(yǔ)言模型

種語(yǔ)言模型進(jìn)行預訓練，此處預訓練為自然

發(fā)表于 05-12 23:57

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應用

。關(guān)于大語(yǔ)言模型是否具備與人類(lèi)“系統2”相似的能力，存在廣泛的爭議。然而，隨著(zhù)模型參數量的增加和大規模預訓練的實(shí)施，大

發(fā)表于 05-07 17:21

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評測

和優(yōu)化至關(guān)重要，它們能夠提供準確的反饋，指導模型在訓練和調優(yōu)過(guò)程中的改進(jìn)方向。大語(yǔ)言模型對話(huà)能力評測：對話(huà)能力評測是大語(yǔ)言

發(fā)表于 05-07 17:12

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預訓練

數據格式的轉換、數據字段的匹配和整合等。通過(guò)數據級凈化，可以進(jìn)一步提高數據的質(zhì)量和可用性，為后續的數據分析和建模提供更有價(jià)值的數據支持。在得到了大語(yǔ)言模型的數據之后，就是對其進(jìn)行預

發(fā)表于 05-07 17:10

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎技術(shù)

模型架構奠定基礎。然后，引介一些經(jīng)典的預訓練模型，如BERT、GPT等。最后，解讀ChatGPT和LLaMA系列

發(fā)表于 05-05 12:17

【大語(yǔ)言模型：原理與工程實(shí)踐】核心技術(shù)綜述

的復雜模式和長(cháng)距離依賴(lài)關(guān)系。預訓練策略: 預訓練是LLMs訓練過(guò)程的第一階段，

發(fā)表于 05-05 10:56

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

學(xué)習能力。這些模型以生成能力強和靈活性強為特點(diǎn)，逐漸演變成一種通用計算平臺。其參數多樣性、生成能力和涌現性使其不僅在自然語(yǔ)言處理領(lǐng)域表現出色，還能適應多種復雜任務(wù)。參數多樣性讓模型能學(xué)

發(fā)表于 05-04 23:55

【大語(yǔ)言模型：原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

處理中預訓練架構Transformer，以及這些技術(shù)在現實(shí)世界中的如何應用。通過(guò)具體案例的分析，作者展示了大語(yǔ)言模型在解決實(shí)際問(wèn)題中的強大能力，同時(shí)也指出了當前技術(shù)面臨的挑戰和局限性。

發(fā)表于 04-30 15:35

盤(pán)點(diǎn)一下史上最全大語(yǔ)言模型訓練中的網(wǎng)絡(luò )技術(shù)

人工智能的基礎設施在大語(yǔ)言模型訓練和推理過(guò)程中發(fā)揮了關(guān)鍵的作用。隨著(zhù)大語(yǔ)言模型規模不斷增大，其對計算和通信的需求也在不斷增加。高

的頭像

發(fā)表于 03-27 17:24 ?559次閱讀

盤(pán)點(diǎn)一下史上最全大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b><b class='flag-5'>訓練</b>中的網(wǎng)絡(luò )技術(shù)

名單公布！【書(shū)籍評測活動(dòng)NO.30】大規模語(yǔ)言模型：從理論到實(shí)踐

等多種形式和任務(wù)。這個(gè)階段是從語(yǔ)言模型向對話(huà)模型轉變的關(guān)鍵，其核心難點(diǎn)在于如何構建訓練數據，包括訓練數據內部多個(gè)任務(wù)之間的關(guān)系、

發(fā)表于 03-11 15:16

大語(yǔ)言模型簡(jiǎn)介：基于大語(yǔ)言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語(yǔ)言模型與生成式AI的全家桶：Bedrock對大語(yǔ)言模型進(jìn)行介紹。大語(yǔ)言模型

發(fā)表于 12-04 15:51 ?513次閱讀

大語(yǔ)言模型（LLM）預訓練數據集調研分析

model 訓練完成后，使用 instruction 以及其他高質(zhì)量的私域數據集來(lái)提升 LLM 在特定領(lǐng)域的性能；而 rlhf 是 openAI 用來(lái)讓model 對齊人類(lèi)價(jià)值觀(guān)的一種強大技術(shù)；pre-training dataset 是大

發(fā)表于 09-19 10:00 ?685次閱讀

訓練大語(yǔ)言模型帶來(lái)的硬件挑戰

生成式AI和大語(yǔ)言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡(jiǎn)要介紹了大語(yǔ)言模型，訓練這些

發(fā)表于 09-01 17:14 ?1204次閱讀

深度學(xué)習自然語(yǔ)言處理
專(zhuān)欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁(yè)

Hot 一個(gè)給NLP領(lǐng)域帶來(lái)革新的預訓練語(yǔ)言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 什么是RAG，RAG學(xué)習和實(shí)踐經(jīng)驗
New MOE與MOT：提升LLM效能的關(guān)鍵策略比較

精選推薦
更多

文章

資料

帖子

瑞薩雙通道同步升壓控制器ISL81805調試經(jīng)驗分享及總結

駿龍電子
6小時(shí)前

327 閱讀

RL78/F24 CANFD參考例程

瑞薩MCU小百科
10小時(shí)前

257 閱讀

如何移植libwebsockets

ElfBoard
11小時(shí)前

321 閱讀

使用理想二極管控制器的汽車(chē)應用冗余電源拓撲

德州儀器
14小時(shí)前

383 閱讀

電力電子中的電大、電小尺寸？

英飛凌工業(yè)半導體
2天前

278 閱讀

電子線(xiàn)路非線(xiàn)性部分教程

笑是留言
16.9 MB

免費

0下載

ATX開(kāi)關(guān)電源維修教程

yezi888
8.24 MB

免費

925下載

混合動(dòng)力與電動(dòng)車(chē)精華系統方案全攻略

Duke
2582KB

3積分

59下載

USB設備可在HomeKit中使用的插件

笑盡往事
0.00 MB

免費

0下載

Great Community—Echo開(kāi)源社區系統

李梅
4.91 MB

2積分

1下載

FPGA 高級設計：時(shí)序分析和收斂

FPGA技術(shù)江湖
1天前

120 閱讀

為什么我的電源會(huì )出現振鈴和過(guò)熱？

久醉不醒
1天前

237 閱讀

無(wú)線(xiàn)鼠標主板，可以自己照著(zhù)做嗎？

angel725
2天前

506 閱讀

【Vision Board創(chuàng )客營(yíng)連載體驗】基于Vision Board的垃圾分類(lèi)

大菠蘿Alpha
2天前

261 閱讀

【Vision Board創(chuàng )客營(yíng)連載體驗】使用 Vision Board 做一個(gè) UVC Camera

ouxiaolong
3天前

250 閱讀

推薦專(zhuān)欄
更多

華秋（原“華強聚豐”）：

電子發(fā)燒友

華秋開(kāi)發(fā)

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網(wǎng)站地圖

設計技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測量?jì)x表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無(wú)線(xiàn)

接口/總線(xiàn)/驅動(dòng)

處理器/DSP

EDA/IC設計

存儲技術(shù)

光電顯示

EMC/EMI設計

連接器

行業(yè)應用

LEDs

汽車(chē)電子

音視頻及家電

通信網(wǎng)絡(luò )

醫療電子

人工智能

虛擬現實(shí)

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動(dòng)通信

工業(yè)控制

便攜設備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區塊鏈

新科技

特色內容

專(zhuān)欄推薦

學(xué)院

設計資源

設計技術(shù)

電子百科

電子視頻

元器件知識

工具箱

VIP會(huì )員

最新技術(shù)文章

社區

小組

論壇

問(wèn)答

評測試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應鏈服務(wù)

硬件開(kāi)發(fā)

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務(wù)

網(wǎng)站廣告

在線(xiàn)研討會(huì )

活動(dòng)策劃

新聞發(fā)布

新品發(fā)布

小測驗

設計大賽

華秋

關(guān)于我們

投資關(guān)系

新聞動(dòng)態(tài)

加入我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡(luò )

微博

移動(dòng)端

發(fā)燒友APP

硬聲APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務(wù) PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關(guān)注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀(guān)察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡(jiǎn)介

企業(yè)動(dòng)態(tài)

聯(lián)系我們

企業(yè)文化

企業(yè)宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證：合字B2-20210191 工商網(wǎng)監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看