<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于大語言模型的共情回復生成:實證研究和改進

深度學習自然語言處理 ? 來源:賽爾實驗 ? 2023-11-21 09:25 ? 次閱讀

0. 省流版

對以ChatGPT為代表的LLMs在共情回復生成上的表現進行了全面的實證研究,LLMs在現有的基準數據集上,對比以往的SOTA模型,表現極其優越。

在LLMs的基礎上,針對性地提出了三種改進方法(語義相似的上下文學習、兩階段交互生成以及與知識庫相結合),實驗證明了它們的有效性。

探索了GPT-4模擬人類評估員的可能性。

1. 動機介紹

共情對話(Empathetic Dialogue)有利于構建助人的AI。共情回復生成(Empathetic Response Generation)主要涉及理解用戶的經歷和感受,并生成適當的回復。而使用對話系統提供共情回復具有訪問方便、無時間限制等優點。圖1展示了一個共情對話示例。

29441aae-87b6-11ee-939d-92fbcf53809c.jpg

圖1 共情對話示例

先前大多數研究者基于可靠的理論知識設置了精細的模型,但是,使用的基礎模型大多是小規模的。最近,大語言模型(Large Language Models, LLMs)以優異的性能被廣泛應用于自然語言處理。尤其是ChatGPT的出現引起了學術界和工業界極大的關注和興趣,它在多種任務中表現出了非凡的能力,特別是對話生成。這些LLMs在大量語料上訓練,包含了豐富的知識。在具體任務中,甚至無需微調,采用一些gradient-free技術(例如,In-context Learning, ICL)依舊可以獲得出色的性能。因此,有必要實證探索LLMs在具體領域的表現,因為解決問題的方式可能會發生極大變化。已經有一些初步的嘗試[1,2]將LLMs應用于共情回復生成。然而,他們的方法主要關注預訓練或對訓練數據進行微調,以及簡單地探索單個LLM的能力。

為了研究LLMs在共情回復生成中的能力,本工作在現有共情對話的基準數據集上對LLMs的性能進行實證研究。我們首先采用在零樣本(zero-shot)和少樣本(few-shot)上下文學習設置下的LLMs和大量基線模型進行比較。令人驚喜的是,僅僅是上下文學習設置下的GPT-3.5系列LLMs的表現已經全面超越了最先進的模型。這表明LLMs帶來的范式轉變也適用于共情對話。進一步,在最佳性能設置的LLM基礎上,我們提出了三種可嘗試的方法來繼續提升其性能。具體來說,分別是借助語義相似性的ICL、兩階段交互生成以及和知識庫相結合的方法來進行改進。大量的自動和人工評估實驗表明,LLMs可以從我們提出的方法中受益,從而產生更具共情性、連貫性和信息性的回復。此外,人工評估一直是共情對話中極其重要的一環,但其昂貴且耗時。鑒于LLMs在共情回復生成上的杰出表現,我們嘗試利用GPT-4來模擬人類評估員對結果進行評測。Spearman和Kendall-Tau相關性結果表明GPT-4有潛力代替人類評估員。

2. 方法部分

29526dca-87b6-11ee-939d-92fbcf53809c.jpg

圖2 整體架構圖

我們提出的方法整體如圖2所示,其中包括共情回復生成的統一模板和三種改進方法。左邊部分描述了借助兩階段交互生成的改進,中間部分展示了所設計的統一模板的組成部分和借助語義相似的上下文學習進行的改進,右邊部分說明了通過知識庫進行改進的細節。

2.1 初步探索

LLMs具有上下文學習(ICL)的能力,通過向LLMs提供任務指令和一些示例,它們可以在不進行微調的情況下執行相關任務。這種能力極大地緩解了對訓練數據的需求。我們首先探索了LLMs在零樣本ICL和少樣本ICL設置上的表現。由于不同的提示(Prompts)可能會影響性能,我們在設計提示時盡量保持一致的風格。我們設計的共情對話提示模板由以下部分組成:

295cbf32-87b6-11ee-939d-92fbcf53809c.png

其中,Task Definition是研究者對該任務的標準定義,Guideline Instruction是我們期望模型遵循的指令,Exemplars是用于幫助模型更好地理解任務的對話示例,Dialogue Context是說話者和傾聽者的歷史對話,最后一句是說話者的話語,我們的目標是讓對話系統生成傾聽者的下一輪話語。

2.2 進階探索

2.2.1 借助語義相似的上下文學習的提升

正如[3]所言,少量精心挑選的數據也可以提高LLMs的性能。我們合理推測,除了示例的數量,示例的質量也會對模型的性能產生影響。因此,在選擇示例時,我們從訓練集中選擇與現階段對話上下文語義最接近的示例。我們將對話內容拼接成一個長句,用句子編碼器獲得向量表示,通過兩個句子的向量表示的余弦相似性衡量語義相似性:

29696e80-87b6-11ee-939d-92fbcf53809c.png

2.2.2 借助兩階段交互生成的提升

在共情對話任務的設置中,傾聽者需要推斷說話者的情緒是什么,以及是什么情境導致了這種情緒,從而提供合適的回復。受開放域對話中一些多階段方法的啟發,結合共情對話的特點,我們與LLMs進行兩階段對話交互。具體來說,在第一階段,我們先讓LLMs推測用戶的情緒狀態和經歷的情境,在第二階段,結合推斷的結果生成最終回復。我們設計的兩階段提示大致如下:

2973644e-87b6-11ee-939d-92fbcf53809c.png

模型在第一階段生成的推測可以用來分析不同的關鍵因素(情緒和情境)對最終結果的影響,提高可解釋性。

2.2.3 借助知識庫的提升

僅僅從歷史對話中推斷說話者的情緒和情境是不夠的,一個直接的證據是,在基準數據集中,最終回復與歷史對話幾乎沒有非停用詞的重疊[4]。因此對話系統需要更多的外部信息來進行共情對話,而我們人類天然具備一定的外部信息。LLMs通過權重存儲了大量知識,因此在執行具體任務時,如何更好地激發相關知識對于效果的提升影響很大。一種解決方案是針對具體任務微調LLMs,但這個過程通常需要昂貴的硬件、時間和訓練數據。受最近的共情對話工作[5]的啟發,我們考慮用常識知識庫來增強對話上下文,動態利用外部相關知識來刺激LLMs編碼的相關知識,從而產生更共情的回復。具體來說,我們采用BART版本的COMET,其在常識知識庫ATOMIC2020上訓練得到,可以為看不見的實體生成具有代表性的常識推斷,其中,我們選用了五種關系(xIntent, XNeed, xWant, xEffect, xReact)[6]。我們根據不同的對話上下文動態拼接得到的相對應的常識推理,從而豐富輸入表示,激發LLMs的相關知識,來產生更合適的回復

29923400-87b6-11ee-939d-92fbcf53809c.png

3. 實驗與分析

3.1 實驗設置

數據集。我們采用大型英文多輪共情對話基準數據集EMPATHETICDIALOGUES[7]。數據集中的每個對話都有一個情緒標簽(總共32種類型)和與情緒標簽對應的情境。說話者討論他們的處境,傾聽者試圖理解說話者的感受并給出合適的回復。

評估相關。我們進行了自動評估和人工評估。人工評估包含指標評分和指標層面的偏好測試。

其他。 本文涉及到的LLMs有關實驗,有償求助了身處國外的朋友進行操作。

3.2 結果分析

3.2.1 初步探索結果

299f3e20-87b6-11ee-939d-92fbcf53809c.png

表1 LLMs和基線模型的自動評估結果

表1顯示了LLMs和基線模型的自動評估結果,其中,LLMs顯著優于現有的SOTA (state-of-the-art) 模型,并在所有的自動指標上實現了顯著提升,尤其是diversity。對于DIST-1/2,LLMs分別獲得了51.8%[=(2.96-1.95)/1.95]和92.7%[=(18.29-9.49)/9.49]的提升,這表明LLMs在多樣的語言表達中具有顯著優勢(主要是unigrams和bigrams)。就BERTScoreBLEU而言,LLMs分別實現了2.1%[=(2.6+1.6+2.1)/3]和26.95%[=(18.6+35.3)/2]的平均改善。這強調了LLMs具備強大的上下文能力,可以快速應用于未見的特定任務。此外,我們觀察到示例數量和多樣性的性能呈正相關,這表明示例的增加可能會影響LLMs的語言習慣。

29aeb31e-87b6-11ee-939d-92fbcf53809c.png

表2 ChatGPT和對比的基線模型的人工評分結果

29c20e00-87b6-11ee-939d-92fbcf53809c.png

表3 指標層面的人類偏好測試結果

在人工評估中,我們選擇在大多數自動指標上領先的ChatGPT (+5-shot) 作為LLMs的代表。表2和表3的上部分分別列出了人工評分和指標層面的偏好測試的結果。我們觀察到ChatGPT在所有人工指標上也極大地優于基線模型,這進一步證明了LLMs在產生共情、連貫和具備信息量的回復上的優越性。此外,我們注意到基線模型的分數低于以往研究中的數值。這是因為ChatGPT的卓越表現相對提高了標準。在偏好測試中,超過70%的情況下,人類評估員更喜歡ChatGPT生成的回復,這一現象也可以驗證上述觀點。

3.2.2 進階探索結果

29dfd174-87b6-11ee-939d-92fbcf53809c.png

表4 進階探索的自動評估結果

進階探索的實驗結果如表4和表3的下部分所示??偟膩碚f,我們的改進方法生成的回復更容易被人類評估員接受。這些結果驗證了上下文學習示例的選擇、兩階段交互生成和上下文相關知識的增強的有效性。

3.2.3LLM模擬人類評估員的分析

29f20984-87b6-11ee-939d-92fbcf53809c.png

表5 人類評估員和GPT-4在不同方面的Spearman和Kendall-Tau相關性

LLMs在生成共情回復中展現了杰出的性能,自然地,我們想到是否可以使用LLMs模擬人類評估員來評估其他模型的性能。與人類評估員相比,LLMs具有更低的成本和更短的時間消耗。為此,我們考慮更強大的GPT-4作為評估器,在相同的設置下進行偏好測試。我們采用Spearman和Kendall-Tau相關來評估人類評估員和GPT-4的表現,結果如表5所示。我們觀察到,GPT-4在各個方面都取得了較好的結果(參考[8]),這表明LLMs有潛力模擬人類評估員。

4. 結論

在這項工作中,我們實證研究了LLMs在共情回復生成方面的表現,并提出了三種改進方法。自動和人工評估結果表明,LLMs顯著優于最先進的模型,并驗證了我們提出的改進方法的有效性。我們的工作可以有助于更深入地理解和應用LLMs進行共情對話,并為類似的任務提供一些見解。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    42

    文章

    3414

    瀏覽量

    132004
  • GPT
    GPT
    +關注

    關注

    0

    文章

    326

    瀏覽量

    15032
  • ChatGPT
    +關注

    關注

    28

    文章

    1481

    瀏覽量

    5503
  • LLM
    LLM
    +關注

    關注

    0

    文章

    217

    瀏覽量

    246

原文標題:EMNLP'23 | 基于大語言模型的共情回復生成:實證研究和改進

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    的未來發展方向進行了展望,包括跨領域、跨模態和自動提示生成能力方向,為讀者提供了對未來技術發展的深刻見解?!洞?b class='flag-5'>語言模型原理與工程實踐》是一本內容豐富、深入淺出的技術書籍。它不僅為讀者提供了大
    發表于 04-30 15:35

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    語言模型(LLM)是人工智能領域的尖端技術,憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習,利用神經網絡框架來理解和生成自然
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    語言模型基礎技術21隨著Transformer結構在機器翻譯領域取得巨大成功,研究人員開始探索其在其他自然語言處理任務中的潛力。很快,Transformer 結構被證明不僅適用于序列
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

    《大語言模型“原理與工程實踐”》是關于大語言模型內在機理和應用實踐的一次深入探索。作者不僅深入討論了理論,還提供了豐富的實踐案例,幫助讀者理解如何將理論知識應用于解決實際問題。書中的案
    發表于 05-07 10:30

    【大語言模型:原理與工程實踐】大語言模型的評測

    閱讀和理解。 文案創作能力:在大語言模型應用中占據核心地位,尤其對于滿足多樣化、復雜化的內容需求具有不可替代的價值。這種能力不僅限于戲劇劇本、市場營銷文案、學術研究論文和數據分析報告等多種文章形態的
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的應用

    的創造力進行結合,從而創造出更加豐富多樣的內容。隨著技術的不斷發展,自動提示生成技術有望逐漸成熟。這將使大語言模型變得更加自主,能夠自行構建和改進提示詞以達到理想的結果。這將極大地提高
    發表于 05-07 17:21

    為什么生成模型值得研究

    1.Why study generative modeling? 人們可能很自然地想知道為什么生成模型值得研究,尤其是那些只能夠生成數據而不能提供密度函數估計的
    發表于 09-15 06:03

    唇語識別中的話題相關語言模型研究_王淵

    唇語識別中的話題相關語言模型研究_王淵
    發表于 03-19 11:28 ?0次下載

    一種結合回復生成的對話意圖預測模型

    ,但是,在很多場景下回復可能并沒有生成。因此,文中提出了一種結合回復生成的對話意圖預測模型。在生成部分,使用Seq2Seq結構,根據對話歷史
    發表于 04-14 14:02 ?5次下載
    一種結合<b class='flag-5'>回復生成</b>的對話意圖預測<b class='flag-5'>模型</b>

    一種可用于生成動漫人物頭像的改進模型

    改進模型LMV- ACGAN( Latent label attached Multi scale Acgan with improvedⅤ GG mode),用于動漫人物頭像的生成。文中設計的
    發表于 04-20 11:19 ?3次下載
    一種可用于<b class='flag-5'>生成</b>動漫人物頭像的<b class='flag-5'>改進</b><b class='flag-5'>模型</b>

    一種基于改進的DCGAN生成SAR圖像的方法

    針對SAR圖像識別軟件,通過改進 DCGAN模型生成器與單判別器對抗的結構,采用多生成器與單判別器進行對抗,設計了控制各生成
    發表于 04-23 11:01 ?21次下載
    一種基于<b class='flag-5'>改進</b>的DCGAN<b class='flag-5'>生成</b>SAR圖像的方法

    NVIDIA NeMo最新語言模型服務幫助開發者定制大規模語言模型

    NVIDIA NeMo 大型語言模型(LLM)服務幫助開發者定制大規模語言模型;NVIDIA BioNeMo 服務幫助研究人員
    發表于 09-22 10:42 ?806次閱讀

    基于用于自然語言生成的“語境調優”技術

    自然語言生成(又稱為文本生成)旨在基于輸入數據用人類語言生成合理且可讀的文本。隨著預訓練語言
    的頭像 發表于 10-14 15:38 ?852次閱讀

    語言模型的發展歷程 基于神經網絡的語言模型解析

    簡單來說,語言模型能夠以某種方式生成文本。它的應用十分廣泛,例如,可以用語言模型進行情感分析、標記有害內容、回答問題、概述文檔等等。但理論上
    發表于 07-14 11:45 ?554次閱讀
    <b class='flag-5'>語言</b><b class='flag-5'>模型</b>的發展歷程 基于神經網絡的<b class='flag-5'>語言</b><b class='flag-5'>模型</b>解析

    語言模型簡介:基于大語言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語言模型生成式AI的全家桶:Bedrock對大語言模型進行介紹。大語言
    的頭像 發表于 12-04 15:51 ?494次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>