<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

LLM在各種情感分析任務中的表現如何

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-05-29 17:24 ? 次閱讀

最近幾年,GPT-3、PaLM和GPT-4等LLM刷爆了各種NLP任務,特別是在zero-shot和few-shot方面表現出它們強大的性能。因此,情感分析(SA)領域也必然少不了LLM的影子,但是哪種LLM適用于SA任務依然是不清晰的。

ab4c9358-fded-11ed-90ce-dac502259ad0.png

論文:Sentiment Analysis in the Era of Large Language Models: A Reality Check
地址:https://arxiv.org/pdf/2305.15005.pdf
代碼:https://github.com/DAMO-NLP-SG/LLM-Sentiment

這篇工作調查了LLM時代情感分析的研究現狀,旨在幫助SA研究者們解決以下困惑:

LLM在各種情感分析任務中的表現如何?

與在特定數據集上訓練的小模型(SLM)相比,LLM在zero-shot和few-shot方面的表現如何?

在LLM時代,當前的SA評估實踐是否仍然適用?

實驗

實驗設置

1、調查任務和數據集

該工作對多種的SA任務進行了廣泛調查,包括以下三種類型任務:情感分類(SC)、基于方面的情感分析(ABSA)和主觀文本的多面分析(MAST)。ab55f632-fded-11ed-90ce-dac502259ad0.png

2、基線模型

Large Language Models (LLMs) LLM將直接用于SA任務的推理而沒有特定的訓練,本文從Flan模型家族中選取了兩個模型,分別是Flan-T5(XXL版本,13B)和Flan-UL2(20B)。同時,采用了GPT-3.5家族兩個模型,包括ChatGPT(gpt-3.5-turbo)和text-davinci-003(text-003,175B)。為了正確性預測,這些模型的溫度設置為0。

Small Language Models (SLMs) 本文采用T5(large版本,770M)作為SLM。模型訓練包括全訓練集的方式和采樣部分數據的few-shot方式,前者訓練epoch為3而后者為100。采用Adam優化器并設置學習率為1e-4,所有任務的batch大小設置為4。為了穩定對比,為SLM構造3輪不同隨機seed的訓練,并采用其平均值作為結果。

3、Prompting策略

ab605546-fded-11ed-90ce-dac502259ad0.pngSC,ABSA,和MAST的提示實例。虛線框為few-shot設置,在zero-shot設置時刪除。

為了評估LLM的通用能力,本文為不同模型采用相對一致的的propmts,這些propmts滿足簡單清晰直接的特性。對于zero-shot學習,propmt只包含任務名、任務定義和輸出格式三個必要組件,而對于few-shot學習,將為每個類增加k個實例。

實驗結果

1、Zero-shot結果
ab6c00c6-fded-11ed-90ce-dac502259ad0.png對于LLM,直接將其用于測試集上進行結果推理。對于SLM,先將其在完整訓練集上fine-tuned然后再用于測試,從上圖結果中可以觀測到:

LLM在簡單SA任務上表現出強大的zero-shot性能 從表中結果可以看到LLM的強大性能在SC和MAST任務上,而不需要任何的前置訓練。同時也能觀察到任務稍微困難一點,比如Yelp-5(類目增多)和,LLM就比fine-tuned模型落后很多。

更大的模型不一定導致更好的性能 從表中結果可以看到LLM對于SC和MAST任務表現較好,而且不需要任何的前置訓練。但是也能觀察到任務稍微困難一點,比如Yelp-5(類目增多),LLM就比fine-tuned模型落后很多。

LLM難以提取細粒度的結構化情感和觀點信息 從表中中間部分可以看出,Flan-T5和Flan-UL2在ABSA任務根本就不適用,而text-003和ChatGPT雖然取得了更好的結果,但是對于fine-tuned的SLM來說,依然是非常弱的。

RLHF可能導致意外現象 從表中可以觀察到一個有趣現象,ChatGPT在檢測仇恨、諷刺和攻擊性語言方面表現不佳。即使與在許多其他任務上表現相似的text-003相比,ChatGPT在這三項任務上的表現仍然差得多。對此一個可能的解釋是在ChatGPT的RLHF過程與人的偏好“過度一致”。這一發現強調了在這些領域進一步研究和改進的必要性。

2、Few-shot結果
ab75e488-fded-11ed-90ce-dac502259ad0.png本文采用了手中K-shot的設置:1-shot, 5-shot, 和10-shot。這些采樣的實例分別作為LLM上下文學習實例以及SLM的訓練數據??梢杂腥缦掳l現:

在不同的few-shot設置下,LLM超越SLM 在三種few-shot設置中,LLM幾乎在所有情況下都始終優于SLM。這一優勢在ABSA任務中尤為明顯,因為ABSA任務需要輸出結構化的情感信息,SLM明顯落后于LLM,這可能是由于在數據有限的情況下學習這種模式會變得更加困難。

SLM通過增加shot在多數任務性能得到持續提升 隨著shot數目的增加,SLM在各種SA任務中表現出實質性的提升。這表明SLM能有效利用更多的示例實現更好的性能。任務復雜性也可以從圖中觀察到,T5模型用于情感分類任務性能逐漸趨于平穩,然而對于ABSA和MAST任務,性能繼續增長,這表明需要更多的數據來捕捉其基本模式。

LLM shots的增加對不同任務產生不同結果 增加shot數目對LLM的影響因任務而異。對于像SC這種相對簡單的任務,增加shot收益并不明顯。此外,如MR和Twitter等數據集以及立場和比較任務,甚至隨著shot的增加,性能受到阻礙,這可能是由于處理過長的上下文誤導LLM的結果。然而,對于需要更深入、更精確的輸出格式的ABSA任務,增加few數目大大提高了LLM的性能。這表明更多示例并不是所有任務的靈丹妙藥,需要依賴任務的復雜性。

SA能力評估再思考

呼吁更全面的評估 目前大多數評估往往只關注特定的SA任務或數據集,雖然這些評估可以為LLM的情感分析能力的某些方面提供有用見解,但它們本身并沒有捕捉到模型能力的全部廣度和深度。這種限制不僅降低了評估結果的總體可靠性,而且限制了模型對不同SA場景的適應性。因此,本文試圖在這項工作中對廣泛的SA任務進行全面評估,并呼吁在未來對更廣泛的SA工作進行更全面的評估。

呼吁更自然的模型交互方式 常規情感分析任務通常為一個句子配對相應的情感標簽。這種格式有助于學習文本與其情感之間的映射關系,但可能不適合LLM,因為LLM通常是生成模型。在實踐中不同的寫作風格產生LLM解決SA任務的不同方式,所以在評估過程中考慮不同的表達以反映更現實的用例是至關重要的。這確保評估結果反映真實世界的互動,進而提供更可靠的見解。

prompt設計的敏感性 如圖所示,即使在一些簡單的SC任務上,prompt的變化也會對ChatGPT的性能產生實質性影響。當試圖公平、穩定地測試LLM的SA能力時,與prompt相關的敏感性也帶來了挑戰。當各種研究在一系列LLM中對不同的SA任務使用不同的prompt時,挑戰被進一步放大。與prompt相關的固有偏見使采用相同prompt的不同模型的公平對比變得復雜,因為單個prompt可能并不適用于所有模型。

ab80fe90-fded-11ed-90ce-dac502259ad0.png

為了緩解上述評估LLM的SA能力時的局限性,本文提出了SENTIEVAL基準,用于在LLM時代進行更好的SA評估,并利用各種LLM模型進行了再評估,結果如圖所示。ab899e7e-fded-11ed-90ce-dac502259ad0.png

總結

這項工作使用LLM對各種SA任務進行了系統評估,有助于更好地了解它們在SA問題中的能力。結果表明,雖然LLM在zero-shot下的簡單任務中表現很好,但它們在處理更復雜的任務時會遇到困難。在few-shot下,LLM始終優于SLM,這表明它們在標注資源稀缺時的潛力。同時還強調了當前評估實踐的局限性,然后引入了SENTIEVAL基準作為一種更全面、更現實的評估工具。

總體而言,大型語言模型為情感分析開辟了新的途徑。雖然一些常規SA任務已經達到了接近人類的表現,但要全面理解人類的情感、觀點和其他主觀感受還有很長的路要走。LLM強大的文本理解能力為LLM時代情感分析探索之路提供了有效的工具和令人興奮的研究方向。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    2786

    瀏覽量

    47913
  • 數據集
    +關注

    關注

    4

    文章

    1182

    瀏覽量

    24432
  • ChatGPT
    +關注

    關注

    28

    文章

    1480

    瀏覽量

    5457
  • LLM
    LLM
    +關注

    關注

    0

    文章

    217

    瀏覽量

    243

原文標題:ChatGPT時代情感分析還存在嗎?一份真實調查

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    LSTM的情感識別在鵝漫電商評論分析的實踐與應用

    基于LSTM的情感識別在鵝漫電商評論分析的實踐與應用
    發表于 06-02 07:45

    基于中文微博情感分析研究設計及實現

    中文微博的大數據、指數傳播和跨媒體等特性,決定了依托人工方式監控和處理中文微博是不現實的,迫切需要依托計算機開展中文微博情感自動分析研究.該項研究可分為3個任務:中文微博觀點句識別、情感
    發表于 12-22 11:39 ?0次下載
    基于中文微博<b class='flag-5'>情感</b><b class='flag-5'>分析</b>研究設計及實現

    主題種子詞的情感分析方法

    產品或服務的情感主題分析,有利于用戶從海量的評論集中快速地了解到自己關注產品或服務的主題情感信息。針對現存非監督情感分析模型
    發表于 01-04 14:33 ?1次下載
    主題種子詞的<b class='flag-5'>情感</b><b class='flag-5'>分析</b>方法

    基于上下文語境的微博情感分析

    傳統情感分析方法僅考慮單一文本,對長度短小且口語化嚴重的微博文本情感極性識別率較低。針對上述問題,提出一種結合上下文消息的情感分析方法。將微
    發表于 02-24 11:34 ?0次下載
    基于上下文語境的微博<b class='flag-5'>情感</b><b class='flag-5'>分析</b>

    簡單介紹ACL 2020中有關對象級情感分析的三篇文章

    CL 2020中有關情感分析的文章主要集中在Sentiment Analysis, Stylistic Analysis, and Argument Mining論壇中,內容涵蓋了情感分析
    的頭像 發表于 08-28 09:49 ?5787次閱讀
    簡單介紹ACL 2020中有關對象級<b class='flag-5'>情感</b><b class='flag-5'>分析</b>的三篇文章

    將對話中的情感分類任務建模為序列標注 并對情感一致性進行建模

    本文是平安科技發表在ACL2020上的一篇論文,思路比較新穎,它將ERC任務看做序列標注任務,并對情感一致性進行建模。 ? 之前解決ERC的思路是利用上下文的話語特征預測對話中單個話語的情感
    的頭像 發表于 01-18 16:24 ?2845次閱讀

    情感分析常用的知識有哪些呢?

    一般的文本分類任務只提供句子或文檔級別的情感標簽,引入情感詞典等先驗情感知識可以給情感文本引入更細粒度監督信號,使得模型能學到更適合
    的頭像 發表于 04-15 14:22 ?3156次閱讀
    <b class='flag-5'>情感</b><b class='flag-5'>分析</b>常用的知識有哪些呢?

    圖模型在方面級情感分析任務中的應用

    方面級情感分析(Aspect-based Sentiment Analysis, ABSA)是一項細粒度的情感分析任務,主要針對句子級別的文
    的頭像 發表于 11-24 10:20 ?1440次閱讀

    如何利用LLM做多模態任務?

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力,但目前還未開放多模態輸入接口并且不會透露任何模型上技術細節。因此,現階段,如何利用LLM做一些多模態
    的頭像 發表于 05-11 17:09 ?721次閱讀
    如何利用<b class='flag-5'>LLM</b>做多模態<b class='flag-5'>任務</b>?

    如何利用LLM做一些多模態任務

    本文整理了近兩年來基于LLM做vision-lanuage任務的一些工作,并將其劃分為4個類別:
    的頭像 發表于 05-17 15:02 ?639次閱讀
    如何利用<b class='flag-5'>LLM</b>做一些多模態<b class='flag-5'>任務</b>

    如何利用LLM做多模態任務?

    并且不會透露任何模型上技術細節。因此,現階段,如何利用LLM做一些多模態任務還是有一定的研究價值的。 本文整理了近兩年來基于LLM做vision-lanuage任務的一些工作,并
    的頭像 發表于 05-22 15:57 ?561次閱讀
    如何利用<b class='flag-5'>LLM</b>做多模態<b class='flag-5'>任務</b>?

    Macaw-LLM:具有圖像、音頻、視頻和文本集成的多模態語言建模

    盡管指令調整的大型語言模型 (LLM) 在各種 NLP 任務表現出卓越的能力,但它們在文本以外的其他數據模式上的有效性尚未得到充分研究。在這項工作中,我們提出了 Macaw-
    的頭像 發表于 06-19 10:35 ?1045次閱讀
    Macaw-<b class='flag-5'>LLM</b>:具有圖像、音頻、視頻和文本集成的多模態語言建模

    適用于各種NLP任務的開源LLM的finetune教程~

    ChatGLM2-6b是清華開源的小尺寸LLM,只需要一塊普通的顯卡(32G較穩妥)即可推理和微調,是目前社區非?;钴S的一個開源LLM。
    的頭像 發表于 07-24 09:04 ?1459次閱讀
    適用于<b class='flag-5'>各種</b>NLP<b class='flag-5'>任務</b>的開源<b class='flag-5'>LLM</b>的finetune教程~

    基于單一LLM情感分析方法的局限性

    LLM的發展為情感分析任務帶來的新的解決方案。有研究人員使用LLM,在上下文學習(in-context learning, ICL)的范式下
    的頭像 發表于 11-23 11:14 ?471次閱讀
    基于單一<b class='flag-5'>LLM</b>的<b class='flag-5'>情感</b><b class='flag-5'>分析</b>方法的局限性

    如何利用OpenVINO加速LangChain中LLM任務

    LangChain 是一個高層級的開源的框架,從字面意義理解,LangChain 可以被用來構建 “語言處理任務的鏈條”,它可以讓AI開發人員把大型語言模型(LLM)的能力和外部數據結合起來,從而
    的頭像 發表于 12-05 09:58 ?495次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>