<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

通過循環訓練實現忠實的低資源數據文本生成

深度學習自然語言處理 ? 來源:機器翻譯學堂 ? 2023-08-24 14:53 ? 次閱讀

摘要

近年來,從結構化數據生成文本的方法有了長足的進步,這主要歸功于在大型數據集上對預先訓練好的語言模型進行微調。然而,這些模型可能無法生成忠實于輸入數據的輸出結果,尤其是在域外數據上。對于特定領域來說,通常無法獲得足夠的注釋數據,因此本文需要尋求一種無監督的方法來提高輸出文本的忠實性。

由于問題的根本在于結構化數據和文本表征之間的一致性,本文在這項工作中評估了循環訓練的有效性。循環訓練使用兩個互為逆變的模型:一個模型從結構化數據生成文本,另一個模型從自然語言文本生成結構化數據。本文的研究表明,在 WebNLG、E2E、WTQ 和 WSQL 數據集的數據到文本生成任務中,循環訓練在使用少量監督數據(在本文的案例中為 100 個樣本)進行初始化時,可獲得與完全監督方法幾乎相同的性能。

本文利用自動評估指標和新設計的人工評估模式進行了廣泛的實證分析,以揭示不同循環訓練策略在減少各類生成錯誤方面的有效性。

引言

大量信息(如電影信息數據庫或產品目錄)以結構化知識的形式存在,為了充分利用這些數據到各種任務中,本文希望將這些信息闡述化?,F階段有研究人員利用免費公開的數據來解決這種數據到文本的生成任務。然而,仍然存在兩大挑戰。

1 要實現良好的性能,所需的訓練數據量非常大,尤其是在現有語料庫不能包含的領域。

2 從結構化數據中自然語言生成(NLG)往往會產生多種錯誤,從而限制了這些模型在面向客戶的應用中的實用性。當NLG 模型在生成的輸出文本時注入與輸入結構化數據無關的無意義詞語或信息就會產生幻覺。

為了在數據轉文本的過程中解決這些問題,一般有兩條研究思路:

1 設計能直接生成更忠實于輸入數據的輸出的模型。

2 設計在輸出文本生成后檢測并糾正事實錯誤或幻覺的模型。

針對這兩種情況,先前的研究一般都假定有足夠多的結構化數據和文本對作為訓練數據,從而在任務中達到相持與人類水平的性能。由于它們一般都是在 100,000 個或更多實例的大型語料庫中訓練出來的,雖然在域內數據,事實驗證模型可以達到很高的性能,卻在域外數據上下降,這對事實驗證模型來說是一個很大的限制。同樣,像 WebNLG 這樣的語料庫包含約 20,000 個示例;這可能太小,即使在完全監督下也無法達到人類性能,但其規模足以使生成 WebNLG 規模的特定領域語料。盡管存在上述事實,但很少有為數據到文本和表到文本任務模型針對數據和相應文本之間的一致性出發而開發模型。

本文從克服缺乏訓練數據(尤其是域外數據)和結構化數據與文本之間需要一致性兩方面出發,采用了循環訓練法。主要思想為:用主謂賓三元組形式的無配對數據 D 和不一定來自同一領域文本 T。還用一小組(100 個樣本)配對數據Dpr和文本Tpr,用來循環訓練兩個反復訓練的模型(正向模型 F:D → T,反向模型 R:T → D)。訓練是無監督的,即凍結一個模型,用它來解碼一組輸入,用來訓練另一個模型,之后用新的模型反向預測第一個模型輸入。具體來說,在一個循環中,本文凍結 F,并通過將輸入 D 重構為 R(F(D))來訓練 R。一個訓練周期后,本文將兩個模型的角色互換。值得注意的是,正如本文將要展示的那樣,即使最初的模型很差,也能收斂到接近監督性能的模型。此外,本文還證明,即使配對數據很少或根本沒有,這一過程也能確保輸出文本忠實于輸入數據,反之亦然。

此外,本文還詳細研究循環訓練的有效條件,重點關注領域以及訓練文本和結構化數據的性質。發現,無監督循環訓練的效果優于低資源微調模型,而且在使用少量注釋數據進行初始化和后期調整時,可以達到接近完全監督的效果。

本文主要貢獻:

1、僅使用一個預先訓練的語言模型 T5,就成功地將循環訓練應用于數據到文本和文本到數據模型,而無需使用圖方法或其他輔助模型。

2、證明了循環訓練在某些領域的性能幾乎與監督模型相同。

3、對循環訓練效果良好的條件以及不同類型生成錯誤下數據到文本的忠實性進行了廣泛的實證分析。

4、設計了一種新穎的基于計數和排名的注釋模式,以便從正確性、忠實性、數據覆蓋率和流暢性等角度更全面地評估生成文本的忠實性。本文采用的方案在客觀性、一致性、精確性和易評估性方面改進了WebNLG 2020 挑戰賽使用的基于評級的方案。

相關研究

與以往研究主要由維基百科等通用來源的數據為基礎,模型已在大規模表對文語料庫上進行了訓練,以執行事實驗證。然而,這些模型在它們沒有訓練過的特定領域的表現可能不理想。有些研究嘗試使用 GPT-3 來增加訓練數據,而另一些則使用信息檢索系統來建立生成原型。本文直接利用了目標語料庫的未配對基礎數據和文本,而無需借助任何額外的信息檢索或生成系統。此外,以往研究數據到文本的任務主要是通過 BLEU或 METEOR等單詞或語法級別的自動指標進行評估,對忠實度的評估很少(而且大多是主觀的)。本文中設計了一種新穎的評估模式來對生成文本對輸入數據的忠實度進行更全面的評估。

循環訓練依賴于兩個模型,這兩個模型本質上是彼此的逆變換,用于創建 “循環”,其返回的輸出應與給定的輸入完全相同。循環訓練有兩種不同的形式。第一種形式旨在學習從一種輸入形式轉換到另一種輸入形式。另一種形式是使用 “周期一致性損失 ”作為其他任務的輔助損失。在這項工作中,作者只使用循環一致性進行訓練。在一個文本到文本的應用中,有研究用類似的無監督方法進行雙向文本轉換,將關鍵詞搜索查詢轉換為自然語言問題。在沒有大量注釋文本的情況下,它也被用于命名實體識別。在這種情況下,一個模型提取實體,反向模型根據這些實體創建文本。這種方法的局限性在于,有許多方法可以實現具有相同實體的句子。

WebNLG 數據集上的數據到文本生成而開發的 CycleGT 模型明確提出數據到文本生成任務的一致性要求。不過,CycleGT 依靠已有的 NER 模型從輸出文本中提取實體。然后,訓練一個反向模型來預測實體和謂詞之間的聯系。如果實體未被他們的NER 系統識別,將影響珍整體模型的性能。原則上,可以像 CycleNER那樣,利用循環訓練建立一個單獨的NER模型,但 CycleGT 的作者并沒有這樣做。而循環訓練的一個主要優點是無需依賴任何監督,而是主要或完全依賴輸入和輸出的自一致性,在本工作中,作者設計了一種簡單的方法,使用預先訓練好的語言生成模型,針對數據到文本和文本到數據的生成循環進行微調。

方法及骨干模型

循環訓練的前提是有兩個互逆模型。根據 WebNLG2020 挑戰賽,本文采用了性能明顯較強的 T5 模型,作為正向生成(F: D→T,執行 RDF 到文本的生成)和反向生成(R : T → D,執行文本到 RDF 的生成)的骨干模型。將每個樣本的 RDF 三元組線性化為序列 d,分別用 [S]、[P] 和 [O] 標記表示每個三元組的主語、謂語和賓語。因此,RDF 到文本和文本到 RDF 都可以作為序列到序列生成任務來處理和訓練。

本文應用迭代回譯可以增強各種 NLP任務的循環一致性的思想來迭代循環訓練模型。這包括強制數據自洽的數據-文本-數據 (DTD) 循環和文本-數據-文本 (TDT) 循環。如圖 1 所示,對于 DTD 循環,數據到文本模型將線性化三元組 d 作為輸入并生成關聯的中間文本 。接下來,訓練文本到數據模型,目標是使用提供的 重建 d。重建損失 Ld′ 是平均負對數似然,如下所示,其中 di 表示序列 t 的第 i 個標記,|d|是序列長度:

用相反的方式,對 TDT 循環,文本到數據模型首先將文本 t 作為輸入并生成關聯的線性化三元組 。接下來,訓練文本到數據模型,目標是使用提供的 重建 t。重建損失 是平均負對數似然,如下所示,其中 表示序列 t 的第 i 個標記,|t|是序列長度:

由于生成離散中間輸出標記的過程是無差別的,重構損失只能通過每個循環的第二個模型傳播,即DTD 循環的文本到數據模型和 TDT 循環的數據到文本模型。因此,兩個模型的訓練只能通過 TDT 循環和 DTD 循環的交替進行,這樣兩個模型的性能才能逐步提高。

實驗設置

本文在現有的數據源上進行實了驗,這些數據源已注釋了成對的數據三元組和參考文本。其中英語數據使用來自WebNLG 3.0 版本的WebNLG+ 2020 挑戰賽。為了更好地促進在不同領域的實驗和評估,分別利用 DART 的 E2E、WTQ 和 WSQL 的人工注釋部分。為了按照 WebNLG 的格式調整數據,還刪除了一些包含非常規結構標簽的 WSQL 和 WTQ 示例。

eb4c0e86-4247-11ee-a2ef-92fbcf53809c.png

表1顯示了該文詳細的數據集統計數據。在使用這些數據進行循環訓練時,本文沿用了之前的工作方法,將所有配對樣本拆分為一個獨立的洗碼文本語料庫和另一個獨立的洗碼三元組語料庫。如圖 1 所示:

eb5fa3ce-4247-11ee-a2ef-92fbcf53809c.png

微調大型預訓練模型已被證明在眾多任務中表現很出色的性能。在這項工作中,詳細介紹并運用完全監督下的微調、低資源微調及額外的預訓練進行低資源微調三個基線微調策略。還探索了無監督循環訓練和低資源循環訓練兩種不同的訓練策略,評估不同數據約束下循環訓練的有效性和通用性。為了憑經驗評估“文本語料庫和數據語料庫的潛在內容或實體分布必須具有某種不確定程度的重疊才能使循環訓練方法發揮作用”這個先決條件,本文在不同匹配級別應用相同大小的文本和數據語料庫的無監督循環訓練以作為潛在內容或實體分布重疊的粗略近似。具體來說,隨機選擇一半的 WebNLG 三元組作為數據語料庫。針對性地選擇五個大小相等的文本語料庫,其中包含0%、25%、50%、75%和100%的原始相關參考文本,并分別補充包括100%、75%、50%、25%、0%的不相關參考文本。

本文選擇了T5-base模型作為基線,具有線性權重衰減的 AdamW 作為優化器,最大輸入長度設為256,Learningrate設為3e-4,batchisze設為了256,共訓練了50輪。

實驗結果和討論

本文使用自動評價和人工評價兩種方法對使用的策略進行了評估。使用ROUGE、 BLEU、 METEOR、BertScore和PARENT五個廣泛使用的自動評估指標來評估每個策略,這些指標從字符的匹配、語義相似性和忠實度三個方面衡量生成的質量。表 2 顯示了多種數據到文本生成方法在不同設置下的性能。發現,無監督循環訓練法的性能普遍低于全監督微調法。與低資源微調方法相比,它在 WebNLG 和 WTQ 上的得分較高,但在 E2E 和 WSQL 上的表現較差,其中在 WSQL 上的性能差距更大。作者將這種差異歸因于獨特謂詞和詞匯量的不同。通過接觸更多不同的文本和結構化數據,以及通過逐步學習不同的數據-文本關聯的能力,循環訓練應該能夠提高模型的泛化能力和魯棒性。對于 E2E 和 WSQL 這樣的數據集來說,它們的詞匯量和獨特謂詞的數量都較少,這意味著少量的注釋樣本就可能涵蓋數據集的大量潛在變化。這成就了強大的低資源微調性能,與相應的完全監督的方法只有很小的性能差距,并掩蓋了無監督的循環訓練方法。

eb95d55c-4247-11ee-a2ef-92fbcf53809c.png

ebce9c5c-4247-11ee-a2ef-92fbcf53809c.png

無論如何,當有少量注釋數據可用于初始化循環訓練時,低資源循環訓練策略顯著提高了生成性能,超過了低資源微調方法,并達到了與完全監督方法堪比的性能。這種改進在所有四個數據集和五種評估指標中都是一致的。值得注意的是,當應用于多領域和開放域數據集(WebNLG、WTQ 和 WSQL)時,與完全監督的相比,低資源循環訓練生成的文本對輸入數據具有更好的忠實度(從 PARENT 分數可以明顯看出)。與采用額外預訓練的設置相比,循環訓練的作用顯然不僅僅是提高生成目標域標記的概率。至于使用不同重疊度的無配對數據集進行循環訓練的實驗,表 3 中的結果顯示,隨著重疊度的增加,性能在開始時急劇上升,然后在重疊度達到 50%左右時趨于平穩。這表明,在規模相同的情況下,用于循環訓練的未配對數據語料庫和文本語料庫至少需要有 50%的實體(或者說潛在信息)重疊,才能達到理想的性能水平。作者認為 50% 是一個合理的水平,因為許多相關但未配對的文本和結構化數據可能具有更高的信息重疊。我們認為低資源循環訓練是一種普遍適用的方法,它能以最少的人力從大量未配對的結構化數據和文本中有效地學習。

為了定量比較生成文本的正確性、忠實性、數據覆蓋率和流暢性,作者開發了新的基于計數和排名的注釋模式,采用事實錯誤計數 (FE)、幻覺錯誤計數 (HE)、信息丟失計數 (IM)和流暢性偏好 (FP)并用來進行人工評估。與 WebNLG 2020 挑戰賽使用的基于 0-100 評分的模式相比,本文使用的模式具有更好的客觀性、一致性和精確性。人工評估表明,低資源循環訓練持續減少事實錯誤、幻覺錯誤和信息遺漏。人工評估表明,低資源循環訓練可以持續減少事實錯誤、幻覺錯誤和信息遺漏。當循環訓練應用于底層關系和表面實現變化較多的數據集時,其性能會有較大提升。人類對錯誤和信息覆蓋率的評價與 PARENT 分數的相關性更好,這證實了 PARENT 衡量忠實性的能力。從結果中還可以看出,所有三種被評估的數據到文本生成模型都更容易出現幻覺錯誤,而不是事實錯誤,這就要求我們在今后的工作中更加努力地減少幻覺錯誤。在生成文本的流暢性方面,低資源循環訓練比低資源微調方法有所改進,但仍無法持續擊敗完全監督方法。

結論

在這項工作中,作者將循環訓練應用在數據到文本生成任務當中。系統地研究了跨不同領域的循環訓練的有效性,以及循環前微調在資源匱乏環境中的應用。表明,本文使用的方法大大提高了低資源環境中數據到文本的生成性能,與完全監督的模型相比,實現了有競爭力的性能,并且還通過減少事實錯誤、幻覺和信息遺漏提高了生成文本的忠實度,即使與完全監督的方法相比也是如此。此外還設計了一種對數據到文本生成進行有效人類評估的模式,該模式改進了之前的工作并鼓勵對忠實度進行更客觀和一致的審查。

本方法局限性

作者認識到,本文的注釋和分析方法可能需要大量的人力,這可能會限制可以收集的注釋數據量。此外,盡管循環訓練被普遍認為是一種與模型無關的方法,但由于資源限制,無法測試各種骨干模型。此外,盡管本文放寬了實體約束并對數據到文本生成進行端到端的循環訓練,但不可微性問題仍未解決。假設每個周期的第一個模型生成的中間輸出是正確是一個弱假設,可能會將誤導性的訓練信號傳播到每個周期的第二個模型,特別是在訓練的早期階段。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據庫
    +關注

    關注

    7

    文章

    3618

    瀏覽量

    63636
  • 模型
    +關注

    關注

    1

    文章

    2790

    瀏覽量

    47922
  • 語言模型
    +關注

    關注

    0

    文章

    463

    瀏覽量

    10126
  • 自然語言
    +關注

    關注

    1

    文章

    271

    瀏覽量

    13232

原文標題:通過循環訓練實現忠實的低資源數據文本生成

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    我用labview調用matlab腳本,想保存matlab腳本生成數據向量,怎么實現?

    我用labview調用matlab腳本,想保存matlab腳本生成數據向量,怎么實現?
    發表于 02-20 10:07

    如何構建文本生成器?如何實現馬爾可夫鏈以實現更快的預測模型

    準確的,內存少(只存儲1個以前的狀態)并且執行速度快。文本生成實現這里將通過6個步驟完成文本生成器:1、生成查找表:創建表來記錄詞頻2、將
    發表于 11-22 15:06

    循環神經網絡(RNN)的詳細介紹

    循環神經網絡可以用于文本生成、機器翻譯還有看圖描述等,在這些場景中很多都出現了RNN的身影。
    的頭像 發表于 05-11 14:58 ?1.4w次閱讀
    <b class='flag-5'>循環</b>神經網絡(RNN)的詳細介紹

    循環神經網絡卷積神經網絡注意力文本生成變換器編碼器序列表征

    序列表征循環神經網絡卷積神經網絡注意力文本生成變換器編碼器自注意力解碼器自注意力殘差的重要性圖像生成概率圖像生成結合注意力和局部性音樂變換器音樂的原始表征音樂的語言模型音樂
    的頭像 發表于 07-19 14:40 ?3041次閱讀
    <b class='flag-5'>循環</b>神經網絡卷積神經網絡注意力<b class='flag-5'>文本生成</b>變換器編碼器序列表征

    基于生成對抗網絡GAN模型的陸空通話文本生成系統設計

    可以及時發現飛行員錯誤的復誦內容??紤]到訓練一個有效的差錯校驗網絡模型需要大量的文本數據,本文提出一種基于生成對抗網絡GAN的陸空通話文本生成方法。首先對現有真實的陸空通話
    發表于 03-26 09:22 ?34次下載
    基于<b class='flag-5'>生成</b>對抗網絡GAN模型的陸空通話<b class='flag-5'>文本生成</b>系統設計

    基于生成器的圖像分類對抗樣本生成模型

    ,并保證攻擊成功率。模型將對抗樣本生成的過程視為對原圖進行圖像増強的操作引入生成對抗網絡,并改進感知損失函數以增加對抗樣本與原圖在內容與特征空間上的相似性,采用多分類器損失函數優化訓練從而提高攻擊效率。實
    發表于 04-07 14:56 ?2次下載
    基于<b class='flag-5'>生成</b>器的圖像分類對抗樣<b class='flag-5'>本生成</b>模型

    如何去解決文本到圖像生成的跨模態對比損失問題?

    文本到圖像的自動生成,如何訓練模型僅通過一段文本描述輸入就能生成具體的圖像,是一項非常具有挑戰
    的頭像 發表于 06-15 10:07 ?2482次閱讀
    如何去解決<b class='flag-5'>文本</b>到圖像<b class='flag-5'>生成</b>的跨模態對比損失問題?

    文本生成任務中引入編輯方法的文本生成

    4. FELIX FELIX是Google Research在“FELIX: Flexible Text Editing Through Tagging and Insertion”一文中提出的文本生成
    的頭像 發表于 07-23 16:56 ?1549次閱讀
    <b class='flag-5'>文本生成</b>任務中引入編輯方法的<b class='flag-5'>文本生成</b>

    受控文本生成模型的一般架構及故事生成任務等方面的具體應用

    來自:哈工大訊飛聯合實驗室 本期導讀:本文是對受控文本生成任務的一個簡單的介紹。首先,本文介紹了受控文本生成模型的一般架構,點明了受控文本生成模型的特點。然后,本文介紹了受控文本生成
    的頭像 發表于 10-13 09:46 ?3150次閱讀
    受控<b class='flag-5'>文本生成</b>模型的一般架構及故事<b class='flag-5'>生成</b>任務等方面的具體應用

    基于GPT-2進行文本生成

    系統投入使用。這些系統根據格式化數據或自然語言文本生成新聞、財報或者其他解釋性文本。例如,Automated Insights的WordSmith技術已經被美聯社等機構使用,幫助美聯社報道大學橄欖球賽
    的頭像 發表于 04-13 08:35 ?4345次閱讀

    基于用于自然語言生成的“語境調優”技術

    自然語言生成(又稱為文本生成)旨在基于輸入數據用人類語言生成合理且可讀的文本。隨著預訓練語言模型
    的頭像 發表于 10-14 15:38 ?852次閱讀

    基于VQVAE的長文本生成 利用離散code來建模文本篇章結構的方法

    寫在前面 近年來,多個大規模預訓練語言模型 GPT、BART、T5 等被提出,這些預訓練模型在自動文摘等多個文本生成任務上顯著優于非預訓練語言模型。但對于開放式
    的頭像 發表于 12-01 17:07 ?1254次閱讀

    ELMER: 高效強大的非自回歸預訓練文本生成模型

    每個單詞都依賴于輸入文本與之前生成的單詞。自回歸生成模型只建模了前向的單詞依賴關系,依次生成的結構也使得自回歸模型難以并行化。目前大部分預訓練
    的頭像 發表于 03-13 10:39 ?1050次閱讀

    Meta提出Make-A-Video3D:一行文本,生成3D動態場景!

    具體而言,該方法運用 4D 動態神經輻射場(NeRF),通過查詢基于文本到視頻(T2V)擴散的模型,優化場景外觀、密度和運動的一致性。任意機位或角度都可以觀看到提供的文本生成的動態視頻輸出,并可以
    的頭像 發表于 03-24 10:47 ?734次閱讀

    ETH提出RecurrentGPT實現交互式超長文本生成

    RecurrentGPT 則另辟蹊徑,是利用大語言模型進行交互式長文本生成的首個成功實踐。它利用 ChatGPT 等大語言模型理解自然語言指令的能力,通過自然語言模擬了循環神經網絡(RNNs)的
    的頭像 發表于 05-29 14:34 ?640次閱讀
    ETH提出RecurrentGPT<b class='flag-5'>實現</b>交互式超長<b class='flag-5'>文本生成</b>
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>