<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

LLM在各種情感分析任務中的表現如何

最近幾年，GPT-3、PaLM和GPT-4等LLM刷爆了各種NLP任務，特別是在zero-shot和few-shot方面表現出它們強大的性能。因此，情感分析(SA)領域也必然少不了LLM的影子，但是哪種LLM適用于SA任務依然是不清晰的。

論文：Sentiment Analysis in the Era of Large Language Models: A Reality Check
地址：https://arxiv.org/pdf/2305.15005.pdf
代碼：https://github.com/DAMO-NLP-SG/LLM-Sentiment

這篇工作調查了LLM時代情感分析的研究現狀，旨在幫助SA研究者們解決以下困惑：

LLM在各種情感分析任務中的表現如何？

與在特定數據集上訓練的小模型(SLM)相比，LLM在zero-shot和few-shot方面的表現如何？

在LLM時代，當前的SA評估實踐是否仍然適用？

實驗

實驗設置

1、調查任務和數據集

該工作對多種的SA任務進行了廣泛調查，包括以下三種類型任務：情感分類(SC)、基于方面的情感分析(ABSA)和主觀文本的多面分析(MAST)。

2、基線模型

Large Language Models (LLMs) LLM將直接用于SA任務的推理而沒有特定的訓練，本文從Flan模型家族中選取了兩個模型，分別是Flan-T5(XXL版本，13B)和Flan-UL2(20B)。同時，采用了GPT-3.5家族兩個模型，包括ChatGPT(gpt-3.5-turbo)和text-davinci-003(text-003，175B)。為了正確性預測，這些模型的溫度設置為0。

Small Language Models (SLMs) 本文采用T5(large版本，770M)作為SLM。模型訓練包括全訓練集的方式和采樣部分數據的few-shot方式，前者訓練epoch為3而后者為100。采用Adam優化器并設置學習率為1e-4，所有任務的batch大小設置為4。為了穩定對比，為SLM構造3輪不同隨機seed的訓練，并采用其平均值作為結果。

3、Prompting策略

SC,ABSA,和MAST的提示實例。虛線框為few-shot設置，在zero-shot設置時刪除。

為了評估LLM的通用能力，本文為不同模型采用相對一致的的propmts，這些propmts滿足簡單清晰直接的特性。對于zero-shot學習，propmt只包含任務名、任務定義和輸出格式三個必要組件，而對于few-shot學習，將為每個類增加k個實例。

實驗結果

1、Zero-shot結果
對于LLM，直接將其用于測試集上進行結果推理。對于SLM，先將其在完整訓練集上fine-tuned然后再用于測試，從上圖結果中可以觀測到：

LLM在簡單SA任務上表現出強大的zero-shot性能 從表中結果可以看到LLM的強大性能在SC和MAST任務上，而不需要任何的前置訓練。同時也能觀察到任務稍微困難一點，比如Yelp-5(類目增多)和，LLM就比fine-tuned模型落后很多。

更大的模型不一定導致更好的性能 從表中結果可以看到LLM對于SC和MAST任務表現較好，而且不需要任何的前置訓練。但是也能觀察到任務稍微困難一點，比如Yelp-5(類目增多)，LLM就比fine-tuned模型落后很多。

LLM難以提取細粒度的結構化情感和觀點信息 從表中中間部分可以看出，Flan-T5和Flan-UL2在ABSA任務根本就不適用，而text-003和ChatGPT雖然取得了更好的結果，但是對于fine-tuned的SLM來說，依然是非常弱的。

RLHF可能導致意外現象 從表中可以觀察到一個有趣現象，ChatGPT在檢測仇恨、諷刺和攻擊性語言方面表現不佳。即使與在許多其他任務上表現相似的text-003相比，ChatGPT在這三項任務上的表現仍然差得多。對此一個可能的解釋是在ChatGPT的RLHF過程與人的偏好“過度一致”。這一發現強調了在這些領域進一步研究和改進的必要性。

2、Few-shot結果
本文采用了手中K-shot的設置：1-shot, 5-shot, 和10-shot。這些采樣的實例分別作為LLM上下文學習實例以及SLM的訓練數據?？梢杂腥缦掳l現：

在不同的few-shot設置下，LLM超越SLM 在三種few-shot設置中，LLM幾乎在所有情況下都始終優于SLM。這一優勢在ABSA任務中尤為明顯，因為ABSA任務需要輸出結構化的情感信息，SLM明顯落后于LLM，這可能是由于在數據有限的情況下學習這種模式會變得更加困難。

SLM通過增加shot在多數任務性能得到持續提升 隨著shot數目的增加，SLM在各種SA任務中表現出實質性的提升。這表明SLM能有效利用更多的示例實現更好的性能。任務復雜性也可以從圖中觀察到，T5模型用于情感分類任務性能逐漸趨于平穩，然而對于ABSA和MAST任務，性能繼續增長，這表明需要更多的數據來捕捉其基本模式。

LLM shots的增加對不同任務產生不同結果 增加shot數目對LLM的影響因任務而異。對于像SC這種相對簡單的任務，增加shot收益并不明顯。此外，如MR和Twitter等數據集以及立場和比較任務，甚至隨著shot的增加，性能受到阻礙，這可能是由于處理過長的上下文誤導LLM的結果。然而，對于需要更深入、更精確的輸出格式的ABSA任務，增加few數目大大提高了LLM的性能。這表明更多示例并不是所有任務的靈丹妙藥，需要依賴任務的復雜性。

SA能力評估再思考

呼吁更全面的評估 目前大多數評估往往只關注特定的SA任務或數據集，雖然這些評估可以為LLM的情感分析能力的某些方面提供有用見解，但它們本身并沒有捕捉到模型能力的全部廣度和深度。這種限制不僅降低了評估結果的總體可靠性，而且限制了模型對不同SA場景的適應性。因此，本文試圖在這項工作中對廣泛的SA任務進行全面評估，并呼吁在未來對更廣泛的SA工作進行更全面的評估。

呼吁更自然的模型交互方式 常規情感分析任務通常為一個句子配對相應的情感標簽。這種格式有助于學習文本與其情感之間的映射關系，但可能不適合LLM，因為LLM通常是生成模型。在實踐中不同的寫作風格產生LLM解決SA任務的不同方式，所以在評估過程中考慮不同的表達以反映更現實的用例是至關重要的。這確保評估結果反映真實世界的互動，進而提供更可靠的見解。

prompt設計的敏感性 如圖所示，即使在一些簡單的SC任務上，prompt的變化也會對ChatGPT的性能產生實質性影響。當試圖公平、穩定地測試LLM的SA能力時，與prompt相關的敏感性也帶來了挑戰。當各種研究在一系列LLM中對不同的SA任務使用不同的prompt時，挑戰被進一步放大。與prompt相關的固有偏見使采用相同prompt的不同模型的公平對比變得復雜，因為單個prompt可能并不適用于所有模型。

為了緩解上述評估LLM的SA能力時的局限性，本文提出了SENTIEVAL基準，用于在LLM時代進行更好的SA評估，并利用各種LLM模型進行了再評估，結果如圖所示。

總結

這項工作使用LLM對各種SA任務進行了系統評估，有助于更好地了解它們在SA問題中的能力。結果表明，雖然LLM在zero-shot下的簡單任務中表現很好，但它們在處理更復雜的任務時會遇到困難。在few-shot下，LLM始終優于SLM，這表明它們在標注資源稀缺時的潛力。同時還強調了當前評估實踐的局限性，然后引入了SENTIEVAL基準作為一種更全面、更現實的評估工具。

總體而言，大型語言模型為情感分析開辟了新的途徑。雖然一些常規SA任務已經達到了接近人類的表現，但要全面理解人類的情感、觀點和其他主觀感受還有很長的路要走。LLM強大的文本理解能力為LLM時代情感分析探索之路提供了有效的工具和令人興奮的研究方向。

審核編輯：彭靜

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

模型

模型

+關注

關注
1

文章
2786

瀏覽量
47913
數據集

數據集

+關注

關注
4

文章
1182

瀏覽量
24432
ChatGPT

ChatGPT

+關注

關注
28

文章
1480

瀏覽量
5457
LLM

LLM

+關注

關注
0

文章
217

瀏覽量
243

原文標題：ChatGPT時代情感分析還存在嗎？一份真實調查

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

LSTM的情感識別在鵝漫電商評論分析中的實踐與應用

基于LSTM的情感識別在鵝漫電商評論分析中的實踐與應用

發表于 06-02 07:45

基于中文微博情感分析研究設計及實現

中文微博的大數據、指數傳播和跨媒體等特性，決定了依托人工方式監控和處理中文微博是不現實的，迫切需要依托計算機開展中文微博情感自動分析研究．該項研究可分為3個任務：中文微博觀點句識別、情感

發表于 12-22 11:39 ?0次下載

主題種子詞的情感分析方法

產品或服務的情感主題分析，有利于用戶從海量的評論集中快速地了解到自己關注產品或服務的主題情感信息。針對現存非監督情感分析模型

發表于 01-04 14:33 ?1次下載

基于上下文語境的微博情感分析

傳統情感分析方法僅考慮單一文本，對長度短小且口語化嚴重的微博文本情感極性識別率較低。針對上述問題，提出一種結合上下文消息的情感分析方法。將微

發表于 02-24 11:34 ?0次下載

簡單介紹ACL 2020中有關對象級情感分析的三篇文章

CL 2020中有關情感分析的文章主要集中在Sentiment Analysis, Stylistic Analysis, and Argument Mining論壇中，內容涵蓋了情感分析

發表于 08-28 09:49 ?5787次閱讀

將對話中的情感分類任務建模為序列標注并對情感一致性進行建模

本文是平安科技發表在ACL2020上的一篇論文，思路比較新穎，它將ERC任務看做序列標注任務，并對情感一致性進行建模。 ? 之前解決ERC的思路是利用上下文的話語特征預測對話中單個話語的情感

發表于 01-18 16:24 ?2845次閱讀

情感分析常用的知識有哪些呢？

一般的文本分類任務只提供句子或文檔級別的情感標簽，引入情感詞典等先驗情感知識可以給情感文本引入更細粒度監督信號，使得模型能學到更適合

發表于 04-15 14:22 ?3156次閱讀

圖模型在方面級情感分析任務中的應用

方面級情感分析(Aspect-based Sentiment Analysis, ABSA)是一項細粒度的情感分析任務，主要針對句子級別的文

發表于 11-24 10:20 ?1440次閱讀

如何利用LLM做多模態任務？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力，但目前還未開放多模態輸入接口并且不會透露任何模型上技術細節。因此，現階段，如何利用LLM做一些多模態

發表于 05-11 17:09 ?721次閱讀

如何利用LLM做一些多模態任務

本文整理了近兩年來基于LLM做vision-lanuage任務的一些工作，并將其劃分為4個類別：

發表于 05-17 15:02 ?639次閱讀

如何利用LLM做多模態任務？

并且不會透露任何模型上技術細節。因此，現階段，如何利用LLM做一些多模態任務還是有一定的研究價值的。本文整理了近兩年來基于LLM做vision-lanuage任務的一些工作，并

發表于 05-22 15:57 ?561次閱讀

Macaw-LLM：具有圖像、音頻、視頻和文本集成的多模態語言建模

盡管指令調整的大型語言模型 (LLM) 在各種 NLP 任務中表現出卓越的能力，但它們在文本以外的其他數據模式上的有效性尚未得到充分研究。在這項工作中，我們提出了 Macaw-

發表于 06-19 10:35 ?1045次閱讀

適用于各種NLP任務的開源LLM的finetune教程~

ChatGLM2-6b是清華開源的小尺寸LLM，只需要一塊普通的顯卡(32G較穩妥)即可推理和微調，是目前社區非?；钴S的一個開源LLM。

發表于 07-24 09:04 ?1459次閱讀

基于單一LLM的情感分析方法的局限性

LLM的發展為情感分析任務帶來的新的解決方案。有研究人員使用LLM，在上下文學習(in-context learning, ICL)的范式下

發表于 11-23 11:14 ?471次閱讀

如何利用OpenVINO加速LangChain中LLM任務

LangChain 是一個高層級的開源的框架，從字面意義理解，LangChain 可以被用來構建 “語言處理任務的鏈條”，它可以讓AI開發人員把大型語言模型（LLM）的能力和外部數據結合起來，從而

發表于 12-05 09:58 ?495次閱讀

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 一個給NLP領域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 什么是RAG，RAG學習和實踐經驗
New MOE與MOT：提升LLM效能的關鍵策略比較

精選推薦
更多

文章

資料

帖子

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
1小時前

109 閱讀

Node-RED實現電表數據采集并上云

億佰特物聯網應用專家
3小時前

93 閱讀

開發者分享 | 基于先楫RT-Thread BSP，使用CLion開發應用

先楫半導體HPMicro
3小時前

122 閱讀

一種擺脫有線束縛的通信技術--無線傳輸

朱老師物聯網大講堂
3小時前

130 閱讀

利用愛星物聯服務腳手架實現定制服務

AIoT行業洞察
2小時前

273 閱讀

凌陽SPCA718影碟機電路圖

糖栗子
576

免費

93下載

《以太網技術開發資料精選》

盧國藝
2598KB

3積分

248下載

DIY自制Arduino機器人_自平衡踏板車+自動避障龜

jfzhangjin
2876KB

2積分

298下載

Moloch數據收集和索引系統

手托初夢
4.20 MB

免費

0下載

StarRocks全場景MPP數據庫

王杰
34.79 MB

免費

1下載

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
11小時前

129 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
1天前

333 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
1天前

482 閱讀

DSP教學實驗箱操作教程：4-12 多路信號混頻實驗（自定義輸入信號）

創龍教儀
1天前

323 閱讀

飛凌嵌入式ElfBoard ELF 1板卡-如何移植FFmpeg

jf_13411809
1天前

426 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看