0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區
會(huì )員中心
創(chuàng )作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內不再提示

一種基于亂序語(yǔ)言模型的預訓練模型-PERT

深度學(xué)習自然語(yǔ)言處理 ? 來(lái)源:NLP工作站 ? 作者:劉聰NLP ? 2022-05-10 15:01 ? 次閱讀

寫(xiě)在前面

今天分享給大家一篇哈工大訊飛聯(lián)合實(shí)驗室的論文,一種基于亂序語(yǔ)言模型的預訓練模型-PERT,全名《PERT: PRE-TRAINING BERT WITH PERMUTED LANGUAGE MODEL》。該篇論文的核心是,將MLM語(yǔ)言模型的掩碼詞預測任務(wù),替換成詞序預測任務(wù),也就是在不引入掩碼標記[MASK]的情況下自監督地學(xué)習文本語(yǔ)義信息,隨機將一段文本的部分詞序打亂,然后預測被打亂詞語(yǔ)的原始位置。

PERT模型的Github以及對應的開(kāi)源模型其實(shí)年前就出來(lái)了,只是論文沒(méi)有放出。今天一瞬間想起來(lái)去看一眼,這不,論文在3月14號的時(shí)候掛到了axirv上,今天分享給大家。

paper:https://arxiv.org/pdf/2203.06906.pdf
github:https://github.com/ymcui/PERT

介紹

預訓練語(yǔ)言模型(PLMs)目前在各種自然語(yǔ)言處理任務(wù)中均取得了優(yōu)異的效果。預訓練語(yǔ)言模型主要分為自編碼和自回歸兩種。自編碼PLMs的預訓練任務(wù)通常是掩碼語(yǔ)言模型任務(wù),即在預訓練階段,使用[MASK]標記替換原始輸入文本中的一些token,并在詞匯表中恢復這些被[MASK]的token。

常用預訓練語(yǔ)言模型總結:https://zhuanlan.zhihu.com/p/406512290

那么,自編碼PLMs只能使用掩碼語(yǔ)言模型任務(wù)作為預訓練任務(wù)嗎?我們發(fā)現一個(gè)有趣的現象“在一段文本中隨機打亂幾個(gè)字并不會(huì )影響我們對這一段文本的理解”,如下圖所示,乍一看,可能沒(méi)有注意到句子中存在一些亂序詞語(yǔ),并且可以抓住句子的中心意思。該論文探究了是否可以通過(guò)打亂句子中的字詞來(lái)學(xué)習上下文的文本表征,并提出了一個(gè)新的預訓練任務(wù),即亂序語(yǔ)言模型(PerLM)。e8d52ce8-cf96-11ec-bce3-dac502259ad0.png

模型

PERT模型結構如上圖所示。PERT模型結構與BERT模型結構相同,僅在模型輸入以及預訓練目標上略有不同。

PERT模型的細節如下:

  • 采用亂序語(yǔ)言模型作為預訓練任務(wù),預測目標為原始字詞的位置;
  • 預測空間大小取決于輸入序列長(cháng)度,而不是整個(gè)詞表的大?。ㄑ诖a語(yǔ)言模型預測空間為詞表);
  • 不采用NSP任務(wù);
  • 通過(guò)全詞屏蔽和N-gram屏蔽策略來(lái)選擇亂序的候選標記;
  • 亂序的候選標記的概率為15%,并且真正打亂順序僅占90%,剩余10%保持不變。

由于亂序語(yǔ)言模型不使用[MASK]標記,減輕了預訓練任務(wù)與微調任務(wù)之間的gap,并由于預測空間大小為輸入序列長(cháng)度,使得計算效率高于掩碼語(yǔ)言模型。PERT模型結構與BERT模型一致,因此在下游預訓練時(shí),不需要修改原始BERT模型的任何代碼與腳本。注意,與預訓練階段不同,在微調階段使用正常的輸入序列,而不是打亂順序的序列。

中文實(shí)驗結果與分析

預訓練參數

  • 數據:由中文維基百科、百科全書(shū)、社區問(wèn)答、新聞文章等組成,共5.4B字,大約20G。
  • 訓練參數:詞表大小為21128,最大序列長(cháng)度為512,batch大小為416(base版模型)和128(large版模型),初始學(xué)習率為1e-4,使用 warmup動(dòng)態(tài)調節學(xué)習率,總訓練步數為2M,采用ADAM優(yōu)化器。
  • 訓練設備:一臺TPU,128G。

機器閱讀理解MRC任務(wù)

在CMRC2018和DRCD兩個(gè)數據集上對機器閱讀理解任務(wù)進(jìn)行評測,結果如下表所示。e8e7ca9c-cf96-11ec-bce3-dac502259ad0.png
PERT模型相比于MacBERT模型有部分的提高,并且始終優(yōu)于其他模型。

文本分類(lèi)TC任務(wù)

在XNLI、LCQMC、BQ Corpus、ChnSentiCorp、TNEWS和OCNLI 6個(gè)數據集上對文本分類(lèi)任務(wù)進(jìn)行評測,結果如下表所示。e901a50c-cf96-11ec-bce3-dac502259ad0.png

在文本分類(lèi)任務(wù)上,PERT模型表現不佳。推測與MRC任務(wù)相比,預訓練中的亂序文本給理解短文本帶來(lái)了困難。

命名實(shí)體識別NER任務(wù)

在MSRA-NER和People’s Daily兩個(gè)數據集上對命名實(shí)體識別任務(wù)進(jìn)行評測,結果如下表所示。e922c94e-cf96-11ec-bce3-dac502259ad0.png

PERT模型相比于其他模型均取得最優(yōu)的效果,表明預訓練中的亂序文在序列標記任務(wù)中的良好能力。

對比機器閱讀理解、文本分類(lèi)和命名實(shí)體識別三個(gè)任務(wù),可以發(fā)現,PERT模型在MRC和NER任務(wù)上表現較好,但在TC任務(wù)上表現不佳,這意味著(zhù)TC任務(wù)對詞語(yǔ)順序更加敏感,由于TC任務(wù)的輸入文本相對較短,有些詞語(yǔ)順序的改變會(huì )給輸入文本帶來(lái)完全的意義變化。然而,MRC任務(wù)的輸入文本通常很長(cháng),幾個(gè)單詞的排列可能不會(huì )改變整個(gè)文章的敘述流程;并且對于NER任務(wù),由于命名實(shí)體在整個(gè)輸入文本中只占很小的比例,因此詞語(yǔ)順序改變可能不會(huì )影響NER進(jìn)程。

語(yǔ)法檢查任務(wù)

在Wikipedia、Formal Doc、Customs和Legal 4個(gè)數據集上對文本分類(lèi)任務(wù)進(jìn)行評測語(yǔ)法檢查任務(wù)進(jìn)行評測,結果如下表所示。e938f854-cf96-11ec-bce3-dac502259ad0.png

PERT模型相比于其他模型均取得最優(yōu)的效果,這是由于下游任務(wù)與預訓練任務(wù)非常相似導致的。

預訓練的訓練步數對PERT模型的影響

不同的下游任務(wù)的最佳效果可能出現在不同的預訓練步驟上,如下圖所示。e98c68c2-cf96-11ec-bce3-dac502259ad0.png

我們發(fā)現對于MRC和NER任務(wù),隨著(zhù)預訓練步數的增加,下游任務(wù)也會(huì )隨之提高。然而,對于TC任務(wù),不同數據的指標在不同的步數上取得最優(yōu)。如果考慮到特定任務(wù)的效果,有必要在早期訓練中保存部分模型。

不同的打亂粒度對PERT模型的影響

不同粒度間的打亂,可以使使輸入文本更具可讀性。通過(guò)在不同粒度內亂序輸入文本來(lái)比較性能,如下表所示。e9a25be6-cf96-11ec-bce3-dac502259ad0.png

我們發(fā)現,在各種打亂粒度中,無(wú)限制亂序的PERT模型在所有任務(wù)中都取得了最優(yōu)的效果;而選擇最小粒度(詞語(yǔ)之間)的模型,效果最差??赡茉蚴?,雖然使用更小的粒度的亂序可以使輸入文本更具可讀性,但是對預訓練任務(wù)的挑戰性較小,使模型不能學(xué)習到更好地語(yǔ)義信息。

不同預測空間對PERT模型的影響

將PERT模型使用詞表空間作為預測目標是否有效?如下表所示。

e9b7dda4-cf96-11ec-bce3-dac502259ad0.png

實(shí)驗結果表明,PERT模型不需要在詞表空間中進(jìn)行預測,其表現明顯差于在輸入序列上的預測;并且將兩者結合的效果也不盡如人意。

預測部分序列和預測全部序列對PERT模型的影響

ELECTRA模型的實(shí)驗發(fā)現預測完全序列的效果比部分序列的更好,因此ELECTRA模型采用RTD任務(wù)對判別器采用完全序列預測。但通過(guò)本論文實(shí)驗發(fā)現,預測完全序列在PERT模型中并沒(méi)有產(chǎn)生更好的效果。表明在預訓練任務(wù)中使用預測全部序列并不總是有效的,需要根據所設計的預訓練任務(wù)進(jìn)行調整。e9db0a7c-cf96-11ec-bce3-dac502259ad0.png

總結

PERT模型的預訓練思路還是挺有意思的,并在MRC、NER和WOR任務(wù)上均取得了不錯的效果。并且由于結構與BERT模型一致,因此在下游任務(wù)使用時(shí),僅修改預訓練模型加載路徑就實(shí)現了模型替換,也比較方便。當打比賽或者做業(yè)務(wù)時(shí)候,可以不妨試一試,說(shuō)不定有奇效。(ps:我在我們自己的MRC數據集上做過(guò)實(shí)驗,效果不錯呦?。。?/p>


審核編輯 :李倩



聲明:本文內容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權轉載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習之用,如有內容侵權或者其他違規問(wèn)題,請聯(lián)系本站處理。 舉報投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    463

    瀏覽量

    10152
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    511

    瀏覽量

    13256

原文標題:PERT:一種基于亂序語(yǔ)言模型的預訓練模型

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【大規模語(yǔ)言模型:從理論到實(shí)踐】- 每日進(jìn)步點(diǎn)點(diǎn)

    ,特別是在NLP和大模型領(lǐng)域中被廣泛使用。 RMS Normalization(RMSNorm) 原理:為了提升LayerNorm的訓練速度而提出的一種化方法,利用均方根進(jìn)行歸
    發(fā)表于 05-31 19:54

    語(yǔ)言模型:原理與工程實(shí)踐+初識2

    系列變革。 大語(yǔ)言模型是深度學(xué)習的應用之,可以認為,這些模型的目標是模擬人類(lèi)交流,為了理解和生成人類(lèi)
    發(fā)表于 05-13 00:09

    語(yǔ)言模型:原理與工程時(shí)間+小白初識大語(yǔ)言模型

    語(yǔ)言模型進(jìn)行訓練,此處訓練為自然
    發(fā)表于 05-12 23:57

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應用

    。 關(guān)于大語(yǔ)言模型是否具備與人類(lèi)“系統2”相似的能力,存在廣泛的爭議。然而,隨著(zhù)模型參數量的增加和大規模訓練的實(shí)施,大
    發(fā)表于 05-07 17:21

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評測

    和優(yōu)化至關(guān)重要,它們能夠提供準確的反饋,指導模型訓練和調優(yōu)過(guò)程中的改進(jìn)方向。 大語(yǔ)言模型對話(huà)能力評測:對話(huà)能力評測是大語(yǔ)言
    發(fā)表于 05-07 17:12

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型訓練

    數據格式的轉換、數據字段的匹配和整合等。通過(guò)數據級凈化,可以進(jìn)步提高數據的質(zhì)量和可用性,為后續的數據分析和建模提供更有價(jià)值的數據支持。 在得到了大語(yǔ)言模型的數據之后,就是對其進(jìn)行
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎技術(shù)

    模型架構奠定基礎。然后,引介些經(jīng)典的訓練模型,如BERT、GPT等。最后,解讀ChatGPT和LLaMA系列
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    的復雜模式和長(cháng)距離依賴(lài)關(guān)系。 訓練策略: 訓練是LLMs訓練過(guò)程的第階段,
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    學(xué)習能力。這些模型以生成能力強和靈活性強為特點(diǎn),逐漸演變成一種通用計算平臺。其參數多樣性、生成能力和涌現性使其不僅在自然語(yǔ)言處理領(lǐng)域表現出色,還能適應多種復雜任務(wù)。參數多樣性讓模型能學(xué)
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    處理中訓練架構Transformer,以及這些技術(shù)在現實(shí)世界中的如何應用。通過(guò)具體案例的分析,作者展示了大語(yǔ)言模型在解決實(shí)際問(wèn)題中的強大能力,同時(shí)也指出了當前技術(shù)面臨的挑戰和局限性。
    發(fā)表于 04-30 15:35

    盤(pán)點(diǎn)一下史上最全大語(yǔ)言模型訓練中的網(wǎng)絡(luò )技術(shù)

    人工智能的基礎設施在大語(yǔ)言模型訓練和推理過(guò)程中發(fā)揮了關(guān)鍵的作用。隨著(zhù)大語(yǔ)言模型規模不斷增大,其對計算和通信的需求也在不斷增加。高
    的頭像 發(fā)表于 03-27 17:24 ?559次閱讀
    盤(pán)點(diǎn)一下史上最全大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b><b class='flag-5'>訓練</b>中的網(wǎng)絡(luò )技術(shù)

    名單公布!【書(shū)籍評測活動(dòng)NO.30】大規模語(yǔ)言模型:從理論到實(shí)踐

    等多種形式和任務(wù)。這個(gè)階段是從語(yǔ)言模型向對話(huà)模型轉變的關(guān)鍵,其核心難點(diǎn)在于如何構建訓練數據,包括訓練數據內部多個(gè)任務(wù)之間的關(guān)系、
    發(fā)表于 03-11 15:16

    語(yǔ)言模型簡(jiǎn)介:基于大語(yǔ)言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語(yǔ)言模型與生成式AI的全家桶:Bedrock對大語(yǔ)言模型進(jìn)行介紹。大語(yǔ)言模型
    的頭像 發(fā)表于 12-04 15:51 ?513次閱讀

    語(yǔ)言模型(LLM)預訓練數據集調研分析

    model 訓練完成后,使用 instruction 以及其他高質(zhì)量的私域數據集來(lái)提升 LLM 在特定領(lǐng)域的性能;而 rlhf 是 openAI 用來(lái)讓model 對齊人類(lèi)價(jià)值觀(guān)的一種強大技術(shù);pre-training dataset 是大
    的頭像 發(fā)表于 09-19 10:00 ?685次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>(LLM)預<b class='flag-5'>訓練</b>數據集調研分析

    訓練語(yǔ)言模型帶來(lái)的硬件挑戰

    生成式AI和大語(yǔ)言模型(LLM)正在以難以置信的方式吸引全世界的目光,本文簡(jiǎn)要介紹了大語(yǔ)言模型,訓練這些
    的頭像 發(fā)表于 09-01 17:14 ?1204次閱讀
    <b class='flag-5'>訓練</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>帶來(lái)的硬件挑戰
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看