<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

基于大語言模型的共情回復生成：實證研究和改進

0. 省流版

對以ChatGPT為代表的LLMs在共情回復生成上的表現進行了全面的實證研究，LLMs在現有的基準數據集上，對比以往的SOTA模型，表現極其優越。

在LLMs的基礎上，針對性地提出了三種改進方法（語義相似的上下文學習、兩階段交互生成以及與知識庫相結合），實驗證明了它們的有效性。

探索了GPT-4模擬人類評估員的可能性。

1. 動機介紹

共情對話（Empathetic Dialogue）有利于構建助人的AI。共情回復生成（Empathetic Response Generation）主要涉及理解用戶的經歷和感受，并生成適當的回復。而使用對話系統提供共情回復具有訪問方便、無時間限制等優點。圖1展示了一個共情對話示例。

圖1 共情對話示例

先前大多數研究者基于可靠的理論知識設置了精細的模型，但是，使用的基礎模型大多是小規模的。最近，大語言模型（Large Language Models, LLMs）以優異的性能被廣泛應用于自然語言處理。尤其是ChatGPT的出現引起了學術界和工業界極大的關注和興趣，它在多種任務中表現出了非凡的能力，特別是對話生成。這些LLMs在大量語料上訓練，包含了豐富的知識。在具體任務中，甚至無需微調，采用一些gradient-free技術（例如，In-context Learning, ICL）依舊可以獲得出色的性能。因此，有必要實證探索LLMs在具體領域的表現，因為解決問題的方式可能會發生極大變化。已經有一些初步的嘗試[1,2]將LLMs應用于共情回復生成。然而，他們的方法主要關注預訓練或對訓練數據進行微調，以及簡單地探索單個LLM的能力。

為了研究LLMs在共情回復生成中的能力，本工作在現有共情對話的基準數據集上對LLMs的性能進行實證研究。我們首先采用在零樣本（zero-shot）和少樣本（few-shot）上下文學習設置下的LLMs和大量基線模型進行比較。令人驚喜的是，僅僅是上下文學習設置下的GPT-3.5系列LLMs的表現已經全面超越了最先進的模型。這表明LLMs帶來的范式轉變也適用于共情對話。進一步，在最佳性能設置的LLM基礎上，我們提出了三種可嘗試的方法來繼續提升其性能。具體來說，分別是借助語義相似性的ICL、兩階段交互生成以及和知識庫相結合的方法來進行改進。大量的自動和人工評估實驗表明，LLMs可以從我們提出的方法中受益，從而產生更具共情性、連貫性和信息性的回復。此外，人工評估一直是共情對話中極其重要的一環，但其昂貴且耗時。鑒于LLMs在共情回復生成上的杰出表現，我們嘗試利用GPT-4來模擬人類評估員對結果進行評測。Spearman和Kendall-Tau相關性結果表明GPT-4有潛力代替人類評估員。

2. 方法部分

圖2 整體架構圖

我們提出的方法整體如圖2所示，其中包括共情回復生成的統一模板和三種改進方法。左邊部分描述了借助兩階段交互生成的改進，中間部分展示了所設計的統一模板的組成部分和借助語義相似的上下文學習進行的改進，右邊部分說明了通過知識庫進行改進的細節。

2.1 初步探索

LLMs具有上下文學習（ICL）的能力，通過向LLMs提供任務指令和一些示例，它們可以在不進行微調的情況下執行相關任務。這種能力極大地緩解了對訓練數據的需求。我們首先探索了LLMs在零樣本ICL和少樣本ICL設置上的表現。由于不同的提示（Prompts）可能會影響性能，我們在設計提示時盡量保持一致的風格。我們設計的共情對話提示模板由以下部分組成：

其中，Task Definition是研究者對該任務的標準定義，Guideline Instruction是我們期望模型遵循的指令，Exemplars是用于幫助模型更好地理解任務的對話示例，Dialogue Context是說話者和傾聽者的歷史對話，最后一句是說話者的話語，我們的目標是讓對話系統生成傾聽者的下一輪話語。

2.2 進階探索

2.2.1 借助語義相似的上下文學習的提升

正如[3]所言，少量精心挑選的數據也可以提高LLMs的性能。我們合理推測，除了示例的數量，示例的質量也會對模型的性能產生影響。因此，在選擇示例時，我們從訓練集中選擇與現階段對話上下文語義最接近的示例。我們將對話內容拼接成一個長句，用句子編碼器獲得向量表示，通過兩個句子的向量表示的余弦相似性衡量語義相似性：

2.2.2 借助兩階段交互生成的提升

在共情對話任務的設置中，傾聽者需要推斷說話者的情緒是什么，以及是什么情境導致了這種情緒，從而提供合適的回復。受開放域對話中一些多階段方法的啟發，結合共情對話的特點，我們與LLMs進行兩階段對話交互。具體來說，在第一階段，我們先讓LLMs推測用戶的情緒狀態和經歷的情境，在第二階段，結合推斷的結果生成最終回復。我們設計的兩階段提示大致如下：

模型在第一階段生成的推測可以用來分析不同的關鍵因素（情緒和情境）對最終結果的影響，提高可解釋性。

2.2.3 借助知識庫的提升

僅僅從歷史對話中推斷說話者的情緒和情境是不夠的，一個直接的證據是，在基準數據集中，最終回復與歷史對話幾乎沒有非停用詞的重疊[4]。因此對話系統需要更多的外部信息來進行共情對話，而我們人類天然具備一定的外部信息。LLMs通過權重存儲了大量知識，因此在執行具體任務時，如何更好地激發相關知識對于效果的提升影響很大。一種解決方案是針對具體任務微調LLMs，但這個過程通常需要昂貴的硬件、時間和訓練數據。受最近的共情對話工作[5]的啟發，我們考慮用常識知識庫來增強對話上下文，動態利用外部相關知識來刺激LLMs編碼的相關知識，從而產生更共情的回復。具體來說，我們采用BART版本的COMET，其在常識知識庫ATOMIC2020上訓練得到，可以為看不見的實體生成具有代表性的常識推斷，其中，我們選用了五種關系（xIntent, XNeed, xWant, xEffect, xReact）[6]。我們根據不同的對話上下文動態拼接得到的相對應的常識推理，從而豐富輸入表示，激發LLMs的相關知識，來產生更合適的回復：

3. 實驗與分析

3.1 實驗設置

數據集。我們采用大型英文多輪共情對話基準數據集EMPATHETICDIALOGUES[7]。數據集中的每個對話都有一個情緒標簽（總共32種類型）和與情緒標簽對應的情境。說話者討論他們的處境，傾聽者試圖理解說話者的感受并給出合適的回復。

評估相關。我們進行了自動評估和人工評估。人工評估包含指標評分和指標層面的偏好測試。

其他。 本文涉及到的LLMs有關實驗，有償求助了身處國外的朋友進行操作。

3.2 結果分析

3.2.1 初步探索結果

表1 LLMs和基線模型的自動評估結果

表1顯示了LLMs和基線模型的自動評估結果，其中，LLMs顯著優于現有的SOTA (state-of-the-art) 模型，并在所有的自動指標上實現了顯著提升，尤其是diversity。對于DIST-1/2，LLMs分別獲得了51.8%[=(2.96-1.95)/1.95]和92.7%[=(18.29-9.49)/9.49]的提升，這表明LLMs在多樣的語言表達中具有顯著優勢（主要是unigrams和bigrams）。就BERTScore和BLEU而言，LLMs分別實現了2.1%[=(2.6+1.6+2.1)/3]和26.95%[=(18.6+35.3)/2]的平均改善。這強調了LLMs具備強大的上下文能力，可以快速應用于未見的特定任務。此外，我們觀察到示例數量和多樣性的性能呈正相關，這表明示例的增加可能會影響LLMs的語言習慣。

表2 ChatGPT和對比的基線模型的人工評分結果

表3 指標層面的人類偏好測試結果

在人工評估中，我們選擇在大多數自動指標上領先的ChatGPT (+5-shot) 作為LLMs的代表。表2和表3的上部分分別列出了人工評分和指標層面的偏好測試的結果。我們觀察到ChatGPT在所有人工指標上也極大地優于基線模型，這進一步證明了LLMs在產生共情、連貫和具備信息量的回復上的優越性。此外，我們注意到基線模型的分數低于以往研究中的數值。這是因為ChatGPT的卓越表現相對提高了標準。在偏好測試中，超過70%的情況下，人類評估員更喜歡ChatGPT生成的回復，這一現象也可以驗證上述觀點。

3.2.2 進階探索結果

表4 進階探索的自動評估結果

進階探索的實驗結果如表4和表3的下部分所示?？偟膩碚f，我們的改進方法生成的回復更容易被人類評估員接受。這些結果驗證了上下文學習示例的選擇、兩階段交互生成和上下文相關知識的增強的有效性。

3.2.3LLM模擬人類評估員的分析

表5 人類評估員和GPT-4在不同方面的Spearman和Kendall-Tau相關性

LLMs在生成共情回復中展現了杰出的性能，自然地，我們想到是否可以使用LLMs模擬人類評估員來評估其他模型的性能。與人類評估員相比，LLMs具有更低的成本和更短的時間消耗。為此，我們考慮更強大的GPT-4作為評估器，在相同的設置下進行偏好測試。我們采用Spearman和Kendall-Tau相關來評估人類評估員和GPT-4的表現，結果如表5所示。我們觀察到，GPT-4在各個方面都取得了較好的結果（參考[8]），這表明LLMs有潛力模擬人類評估員。

4. 結論

在這項工作中，我們實證研究了LLMs在共情回復生成方面的表現，并提出了三種改進方法。自動和人工評估結果表明，LLMs顯著優于最先進的模型，并驗證了我們提出的改進方法的有效性。我們的工作可以有助于更深入地理解和應用LLMs進行共情對話，并為類似的任務提供一些見解。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
42

文章
3414

瀏覽量
132004
GPT

GPT

+關注

關注
0

文章
326

瀏覽量
15032
ChatGPT

ChatGPT

+關注

關注
28

文章
1481

瀏覽量
5503
LLM

LLM

+關注

關注
0

文章
217

瀏覽量
246

原文標題：EMNLP'23 | 基于大語言模型的共情回復生成：實證研究和改進

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

的未來發展方向進行了展望，包括跨領域、跨模態和自動提示生成能力方向，為讀者提供了對未來技術發展的深刻見解?！洞?b class='flag-5'>語言模型原理與工程實踐》是一本內容豐富、深入淺出的技術書籍。它不僅為讀者提供了大語

發表于 04-30 15:35

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

大語言模型（LLM）是人工智能領域的尖端技術，憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習，利用神經網絡框架來理解和生成自然語

發表于 05-04 23:55

【大語言模型：原理與工程實踐】大語言模型的基礎技術

大語言模型基礎技術21隨著Transformer結構在機器翻譯領域取得巨大成功，研究人員開始探索其在其他自然語言處理任務中的潛力。很快，Transformer 結構被證明不僅適用于序列

發表于 05-05 12:17

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

《大語言模型“原理與工程實踐”》是關于大語言模型內在機理和應用實踐的一次深入探索。作者不僅深入討論了理論，還提供了豐富的實踐案例，幫助讀者理解如何將理論知識應用于解決實際問題。書中的案

發表于 05-07 10:30

【大語言模型：原理與工程實踐】大語言模型的評測

閱讀和理解。文案創作能力：在大語言模型應用中占據核心地位，尤其對于滿足多樣化、復雜化的內容需求具有不可替代的價值。這種能力不僅限于戲劇劇本、市場營銷文案、學術研究論文和數據分析報告等多種文章形態的

發表于 05-07 17:12

【大語言模型：原理與工程實踐】大語言模型的應用

的創造力進行結合，從而創造出更加豐富多樣的內容。隨著技術的不斷發展，自動提示生成技術有望逐漸成熟。這將使大語言模型變得更加自主，能夠自行構建和改進提示詞以達到理想的結果。這將極大地提高

發表于 05-07 17:21

為什么生成模型值得研究

1.Why study generative modeling? 人們可能很自然地想知道為什么生成模型值得研究，尤其是那些只能夠生成數據而不能提供密度函數估計的

發表于 09-15 06:03

唇語識別中的話題相關語言模型研究_王淵

唇語識別中的話題相關語言模型研究_王淵

發表于 03-19 11:28 ?0次下載

一種結合回復生成的對話意圖預測模型

，但是，在很多場景下回復可能并沒有生成。因此，文中提出了一種結合回復生成的對話意圖預測模型。在生成部分，使用Seq2Seq結構，根據對話歷史

發表于 04-14 14:02 ?5次下載

一種可用于生成動漫人物頭像的改進模型

改進模型LMV- ACGAN（ Latent label attached Multi scale Acgan with improvedⅤ GG mode），用于動漫人物頭像的生成。文中設計的

發表于 04-20 11:19 ?3次下載

一種基于改進的DCGAN生成SAR圖像的方法

針對SAR圖像識別軟件，通過改進 DCGAN模型單生成器與單判別器對抗的結構，采用多生成器與單判別器進行對抗，設計了控制各生成器

發表于 04-23 11:01 ?21次下載

NVIDIA NeMo最新語言模型服務幫助開發者定制大規模語言模型

NVIDIA NeMo 大型語言模型（LLM）服務幫助開發者定制大規模語言模型；NVIDIA BioNeMo 服務幫助研究人員

發表于 09-22 10:42 ?806次閱讀

基于用于自然語言生成的“語境調優”技術

自然語言生成（又稱為文本生成）旨在基于輸入數據用人類語言生成合理且可讀的文本。隨著預訓練語言

發表于 10-14 15:38 ?852次閱讀

語言模型的發展歷程基于神經網絡的語言模型解析

簡單來說，語言模型能夠以某種方式生成文本。它的應用十分廣泛，例如，可以用語言模型進行情感分析、標記有害內容、回答問題、概述文檔等等。但理論上

發表于 07-14 11:45 ?554次閱讀

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進行介紹。大語言

發表于 12-04 15:51 ?494次閱讀

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 一個給NLP領域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 什么是RAG，RAG學習和實踐經驗
New MOE與MOT：提升LLM效能的關鍵策略比較

精選推薦
更多

文章

資料

帖子

采用144核，能效提升66%！英特爾至強6處理器震撼上市，加速數據中心升級

章鷹觀察
13小時前

736 閱讀

如何移植FFmpeg

ElfBoard
2天前

553 閱讀

基于Arm Cortex-CM85內核的RA8D1作為控制器通過MIPI DSI實現LVGL顯示

瑞薩MCU小百科
2天前

775 閱讀

便攜式直流接地故障查找儀如何使用——每日了解電力知識

武漢摩恩
2天前

798 閱讀

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
2天前

811 閱讀

鋁電解電容器的技術詳解及應用原則

哥兒
736

免費

107下載

Boot2Docker for Mac OS X Installer Boot2Docker用于OS X系統上的安裝程序

尚文清
0.44 MB

免費

0下載

Kakoune代碼編輯器

1652711011.026500
1.24 MB

免費

1下載

raylib簡單易用的視頻游戲編程庫

大彭
30.41 MB

免費

2下載

用Arduino讀取MPU9250傳感器

馬祥
0.12 MB

免費

2下載

I.MX6ULL-飛凌 ElfBoard ELF1板卡 - 如何在Ubuntu中編譯OpenCV庫(X86架構）

jf_25331175
3天前

707 閱讀

鴻蒙原生應用元服務開發-設備管理USB服務開發場景與接口

李洋水蛟龍
3天前

299 閱讀

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
3天前

889 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
4天前

957 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
4天前

1465 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看