<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用LLM生成反駁:首先洞察審稿人的心理,再巧妙回應!

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-11-16 11:54 ? 次閱讀

在科研領域,同行評審(review-rebuttal)是保證學術質量的關鍵環節。這一過程中的辯論和反駁非常具有挑戰性。傳統的同行評審生成任務通常集中在表面層面的推理。研究人員發現,考慮論點背后的態度根源和主題可以提高反駁的有效性。

今天介紹的這篇研究將心理學理論與辯論技術相結合,為計算辯論領域帶來了新的視角。具體來說,文章主要做了以下工作:

  • 提出了一種全新的同行評審反駁生成任務——柔道辯論(Jiu-Jitsu Argumentation),結合態度根源和主題進行辯論。
  • 開發了JITSUPEER數據集,包含豐富的態度根源、主題和典型反駁案例。
  • 為同行評審反駁生成提供了強大的基準線。

5496c2ac-82f6-11ee-939d-92fbcf53809c.png

Paper: Exploring Jiu-Jitsu Argumentation for Writing Peer Review Rebuttals
Link: https://arxiv.org/pdf/2311.03998.pdf

做一個專門面向年輕NLPer的每周在線論文分享平臺

Jiu-Jitsu Argumentation

同行評審對于確??茖W的高質量至關重要:作者提交研究成果,而審稿人則辯論應不應該接受其發表。通常評審后還會有一個反駁階段。在這里,作者有機會通過反駁論點來說服審稿人提高他們的評估分數。

這篇文章探索了同行評審領域中態度根源的概念,即在審查科學論文的標準時,識別審稿人的潛在信仰和觀點。

作者首先定義典型的rebuttal為:一種與潛在態度根源相一致并解決它們的反駁論點。它足夠通用,可以作為模板用于許多相同(態度根源-主題)審稿元組的實例,同時表達特定的反駁行動。

根據這個定義,作者提出了態度根源和主題引導的反駁生成任務:給定一個同行評審論點rev和一個反駁行動a,任務是根據rev的態度根源和主題生成典型反駁c。

下圖展示了如何通過一系列中間步驟,將審稿內容映射到標準的反駁上。這個審稿的主要觀點是關于清晰度和整體性。

54bc7af6-82f6-11ee-939d-92fbcf53809c.png

JITSUPEER 數據集

為了評估反駁生成任務,作者構建了JITSUPEER數據集。該數據集專注于同行評審過程中的態度根源和主題,通過連接這些元素與基于特定反駁行動的典型反駁,實現了一種態度和主題引導的反駁生成方法。

  • 態度根源與主題分布: 大多數審稿句子的態度根源是“實質性”(Substance),這也是擁有最多主題(29個)的根源。最常見的主題是方法論(Methodology)、實驗(Experiments)和相關工作(Related Work)。這一發現符合直覺,因為機器學習領域的審稿者通常非常關注方法論的穩健性和實用性。
  • 典型反駁識別: 研究團隊為不同的態度根源和反駁行動識別了302個典型反駁。這些典型反駁可以映射到2,219個審稿句子(總共2,332個)。與“完成任務”(Task Done)這一反駁行動和“實質性”態度根源相關的典型反駁句子數量最多。
  • 典型反駁示例: 在報告的表格中,研究團隊展示了一些典型反駁的例子。顯然,不同的態度根源-主題描述與不同的典型反駁相關聯。

54d4045a-82f6-11ee-939d-92fbcf53809c.png

起始數據集

作為JITSUPEER的基礎,研究團隊采用了名為DISAPERE的數據集,該數據集包含了2019年和2020年ICLR會議的審稿和相應反駁。這些審稿和反駁被細致地分解成單個句子,并被三層注釋標記,包括審稿方面和極性、審稿與反駁之間的鏈接,以及反駁行動的直接注釋。特別地,研究團隊關注于需要反駁的負面審稿句子,探索了審稿方面的使用,以此來體現社區共享的科學價值觀。

此外,研究者還使用了另一數據集PEER-REVIEW-ANALYZE,該數據集是一個基準資源,包含2018年ICLR的審稿,同樣配備了多層注釋。這些注釋包括了審稿句子所指目標論文的特定部分,如方法、問題陳述等,這些信息被視為態度主題的關鍵元素。這一研究提供了一個獨特的視角,通過關注論文的特定部分,進一步豐富了對工作的潛在信仰和主題信息的理解。

數據集豐富化

在這項研究中,研究團隊的目標是創建一個詳盡的語料庫,其中審稿句子不僅被標注為態度根源和主題,而且還與特定反駁行動的典型反駁句子相連接。為了實現這一目標,研究團隊采用了一系列方法來豐富DISAPERE數據集。

主題預測

首先,他們使用了PEER-REVIEW-ANALYZE數據集來預測態度主題,即審稿句子中所涉及的論文部分。研究團隊測試了不同的模型,包括通用模型和針對同行評審領域的專門模型,如BERT、RoBERTa和SciBERT。他們通過中間層的遮蔽語言模型(MLM)對這些模型進行了領域專門化處理,并在多個配置下進行了訓練和優化。研究團隊在變壓器的頂部添加了sigmoid分類頭,以進行微調,并對不同的學習率進行了網格搜索。他們基于驗證性能采用早期停止策略,并在PEER-REVIEW-ANALYZE數據集上評估了模型的性能。結果顯示,所有變壓器模型的性能都顯著優于基線模型,其中經過領域專門化處理的SciBERTds_neg模型表現最佳。

根源–主題集群描述

接下來,研究團隊對每個態度根源–主題集群添加額外的自然語言描述,旨在提供比單純標簽元組更豐富的人類可解釋性。他們通過比較自動和手動生成的摘要來完成這一步驟。

摘要生成:在自動摘要方面,研究團隊采用了領域特定的SciBERTds_neg模型對句子進行嵌入,并根據余弦相似度選擇最具代表性的審稿句子。

評估: 研究團隊通過展示摘要和相應的集群句子給注釋者,讓他們選擇更好地描述集群的摘要。他們使用INCEpTION開發了注釋界面,并雇用了額外的計算機科學博士生進行標注。通過測量注釋者間的一致性,研究團隊確保了摘要的質量和準確性。

確定典型反駁

研究團隊為每個態度根源-主題集群確定典型的反駁,這是通過考慮特定的反駁行動來完成的。這一過程分為三個步驟:首先,減少候選典型反駁的數量;其次,手動比較縮減后候選集中的反駁句子對;最后,基于成對比較的分數計算排名,并選擇排名最高的候選作為典型反駁。

候選集減少:為了縮減典型反駁的候選集,研究團隊采用了兩種適用性分類器得出的分數。首先是一個二元分類器,基于自行訓練,用于預測一個反駁句子作為典型反駁的整體適用性。其次,考慮到典型反駁的原型性質,他們還使用了SPECIFICITELLER模型來獲得特定性分數。該模型是一個預訓練的基于特征的模型,用來評估句子是通用的還是具體的。通過這兩個步驟,研究團隊最終將候選集縮減至1,845個候選。

手動標注:在手動決定典型反駁方面,研究團隊設計了一套方法:展示來自特定態度根源和主題集群的≤5個審稿句子,并將這些信息與特定的反駁行動配對。然后,他們隨機選擇兩個反駁句子,這些句子與集群中的任一審稿句子相關,并對應于所選的反駁行動。標注者需要從這對反駁句子中選擇更好的一個。對于每個(態度根源、態度主題、反駁行動)三元組的n個反駁句子,成對標注設置需要對n(n ? 1)/2對句子進行評判。研究團隊雇傭了兩名計算機科學博士生進行這項任務。

典型反駁選擇:研究團隊基于收集的偏好通過注釋圖排名得出最佳反駁。具體來說,他們為每個根源-主題-行動集群創建了一個有向圖,圖中的節點是反駁句子。邊的方向基于偏好:如果A優于B,則創建A → B的邊。然后,他們使用PageRank算法對節點進行排名,每條邊的權重為0.5。排名最低的節點,即很少或沒有入邊的節點,被選為典型反駁。這種方法不僅提高了數據集的質量和實用性,也為未來在類似領域的研究提供了一個有力的方法論參考。

54ec20e4-82f6-11ee-939d-92fbcf53809c.png

實驗分析

研究團隊提出了三項新穎的任務,以在其數據集上進行測試。分別是典型反駁評分,審稿意見生成,典型反駁生成。

典型反駁評分

這個任務的目標是給定一個自然語言描述d和一個反駁行動a,對所有反駁r(與特定態度根源-主題集群相關)進行評分,以表明r作為該集群的典型反駁的適用性。

這個任務被視為一個回歸問題。只考慮有典型反駁的反駁行動和態度根源-主題集群的組合(50個態度根源-主題集群描述,3,986個反駁句子,其中302個是典型反駁)。使用之前的PageRank分數作為模型訓練的預測目標。

結果

  • 從下表可以看出,大多數領域專門化模型的表現優于它們的非專門化對應模型。

5514c3aa-82f6-11ee-939d-92fbcf53809c.png

  • SciBERTds_all 在所有方面都有最高的皮爾遜相關系數,然而,BERTds_neg 在排名分數方面表現最佳。

  • 使用其他與集群相關的信息,如代表性審稿句子,以及對描述進行釋義,可能會帶來進一步的收益,這將留待未來研究探究。

審稿描述生成

給定一條同行評審句子rev,任務是生成該句子所屬集群的抽象描述d 。

實驗設置

  • 數據集由2,332個審稿句子組成,每個句子都屬于144個集群之一,并且每個集群都有相關的描述。
  • 采用70/10/20的訓練-驗證-測試分割。
  • 使用以下序列到序列(seq2seq)模型:BART (bart-large)、Pegasus (pegasus-large) 和 T5 (t5-large)。
  • 對訓練周期數e∈{1, 2, 3, 4, 5}和學習率λ∈{1 * 10^-4, 5 * 10^-4, 1 * 10^-5}進行網格搜索,批量大小b = 32。
  • 使用帶有5個束的束搜索作為解碼策略。
  • 在完全微調設置以及零次和少次(few-shot)場景中進行實驗(隨機選擇次數)。
  • 根據詞匯重疊和語義相似性(ROUGE-1 (R-1), ROUGE-2 (R-2), ROUGE-L (R-L) 和 BERTscore)報告性能。

結果

  • R-1分數展示在下圖中,完整結果在表中。

553c8ff2-82f6-11ee-939d-92fbcf53809c.png

554f4782-82f6-11ee-939d-92fbcf53809c.png

  • 有趣的是,所有模型都表現出非常陡峭的學習曲線,在僅看到一個例子時,根據大多數指標,性能大致翻了一番。
  • 在zero shot和one shot設置中,BART在所有方面表現出色。
  • 但在完全微調模型時,T5的表現最佳。研究團隊推測這可能與T5更大的容量有關(BART有406M參數,而T5有770M參數)。

典型反駁生成

給定一條審稿句子rev 和一個反駁a,任務是生成典型反駁c。

實驗設置

  • 從2,219個有至少一個行動的典型反駁的審稿句子開始。
  • 輸入為將rev和a與分隔符連接在一起,產生17,873個獨特的審稿-反駁行動實例。
  • 使用與前面實驗相同的超參數、模型和度量標準,并進行完全微調以及零次和少次預測實驗。
  • 對這些實驗,應用70/10/20的訓練-驗證-測試分割,以獲取訓練-驗證-測試部分,以典型反駁(302個反駁與17,873個獨特實例相連)為層次。

結果

  • 模型間的差異與之前的發現一致:BART在零次和少次設置中表現出色,T5雖然起點最低,但很快趕上其他模型。

557b6628-82f6-11ee-939d-92fbcf53809c.png

5598d672-82f6-11ee-939d-92fbcf53809c.png

  • 模型的表現比以前更加陡峭,并在兩次嘗試后就似乎達到了一個平臺。研究團隊認為這與典型反駁的有限多樣性有關,以及他們決定在典型反駁層次上進行的訓練-測試分割——任務是生成模板,并對這些模板進行概括??吹狡渲兄挥袔讉€模板后,模型很快就能抓住一般的要點,但無法超越它們所展示的內容。

結語

在這項工作中,研究團隊探索了基于審稿者潛在態度驅動的同行評審中的柔術式論證,為此他們創建了JITSUPEER數據集。這個新穎的數據集包含與典型反駁相連的審稿句子,這些典型反駁可以作為撰寫有效同行評審反駁的模板。團隊在這個數據集上提出了不同的自然語言處理任務,并對多種基線策略進行了基準測試。JITSUPEER的注釋將公開提供,研究團隊相信這個數據集將成為促進計算論證領域中有效同行評審反駁寫作研究的寶貴資源。



聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據集
    +關注

    關注

    4

    文章

    1182

    瀏覽量

    24461
  • 自然語言處理

    關注

    1

    文章

    511

    瀏覽量

    13256
  • LLM
    LLM
    +關注

    關注

    0

    文章

    218

    瀏覽量

    249

原文標題:用LLM生成反駁:首先洞察審稿人的心理,再巧妙回應!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    解鎖LLM新高度—OpenVINO? 2024.1賦能生成式AI高效運行

    LLM 的發展仍保持著驚人的速度。盡管現有的 LLM 已經具備強大的功能,但通過 OpenVINO? 的優化和推理加速,可以對這些復雜模型的執行進行精煉,實現更快、更高效的處理,減少計算開銷并最大限度發揮硬件潛力,這將直接導致 LLM
    的頭像 發表于 05-10 10:36 ?243次閱讀

    Arm平臺賦能移動端生成式AI

    生成式人工智能 (Generative AI) 涵蓋了當下廣為人知,且備受關注的大語言模型 (LLM),如今也已落地邊緣側的移動設備。
    的頭像 發表于 04-26 11:09 ?553次閱讀

    100%在樹莓派上執行的LLM項目

    ChatGPT的人性口語化回復相信許多人已體驗過,也因此掀起一波大型語言模型(Large Language Model, LLM)熱潮,LLM即ChatGPT背后的主運作技術,但LLM運作需要龐大運算力,因此目前多是在云端(Cl
    的頭像 發表于 02-29 16:29 ?837次閱讀
    100%在樹莓派上執行的<b class='flag-5'>LLM</b>項目

    LLM推理加速新范式!推測解碼(Speculative Decoding)最新綜述

    這個問題隨著LLM規模的增大愈發嚴重。并且,如下左圖所示,目前LLM常用的自回歸解碼(autoregressive decoding)在每個解碼步只能生成一個token。這導致GPU計算資源利用率
    的頭像 發表于 01-29 15:54 ?792次閱讀
    <b class='flag-5'>LLM</b>推理加速新范式!推測解碼(Speculative Decoding)最新綜述

    2023年LLM大模型研究進展

    作為做LLM應用的副產品,我們提出了RLCD[11],通過同時使用正例和負例prompt,自動生成帶標簽的生成樣本不需人工標注,然后可以接大模型微調,或者用于訓練reward models
    發表于 01-19 13:55 ?341次閱讀

    安霸發布全新N1系列生成式AI芯片

    安霸在CES 2024上發布了全新的N1系列生成式AI芯片,這是一款專門為前端設備設計的芯片,支持本地運行大型語言模型(LLM)應用。其單顆SoC能夠支持1至340億參數的多模態大模型(Multi-Modal LLM)推理,從而
    的頭像 發表于 01-09 15:32 ?813次閱讀

    安霸發布N1系列生成式AI芯片支持前端設備運行本地LLM應用

    單顆 SoC 支持 1 至 340 億參數的多模態大模型(Multi-Modal LLM)推理,實現前端低功耗生成式 AI。
    的頭像 發表于 01-09 15:19 ?692次閱讀

    全面解析大語言模型(LLM

    internal feedback:使用LLM去預測生成的plan取得成功的概率、Tree of Thought去對比不同的plan(有點類似AlphaGo的蒙特卡諾搜索的意思)、對中間結果進行評估并作為長期記憶存儲
    的頭像 發表于 12-05 14:49 ?1336次閱讀
    全面解析大語言模型(<b class='flag-5'>LLM</b>)

    LLM的幻覺問題最新綜述

    幻覺被描述為無意義或不忠實于所提供源內容的生成內容。根據與源內容的矛盾,這些幻覺又進一步分為內在幻覺和外在幻覺。在LLMs中,幻覺的范圍包含了一個更廣泛、更全面的概念,主要集中在事實錯誤上。本文重新定義了幻覺的分類,為LLM應用程序提供了一個更定制的框架。
    的頭像 發表于 11-22 17:40 ?665次閱讀
    <b class='flag-5'>LLM</b>的幻覺問題最新綜述

    淺析tensorrt-llm搭建運行環境以及庫

    之前玩內測版的時候就需要cuda-12.x,正式出來仍是需要cuda-12.x,主要是因為tensorr-llm中依賴的CUBIN(二進制代碼)是基于cuda12.x編譯生成的,想要跑只能更新驅動。
    的頭像 發表于 11-13 14:42 ?2005次閱讀
    淺析tensorrt-<b class='flag-5'>llm</b>搭建運行環境以及庫

    mlc-llm對大模型推理的流程及優化方案

    在 MLC-LLM 部署RWKV World系列模型實戰(3B模型Mac M2解碼可達26tokens/s) 中提到要使用mlc-llm部署模型首先需要一個編譯過程,將原始的基于Realx搭建的模型
    發表于 09-26 12:25 ?529次閱讀
    mlc-<b class='flag-5'>llm</b>對大模型推理的流程及優化方案

    對比解碼在LLM上的應用

    為了改進LLM的推理能力,University of California聯合Meta AI實驗室提出將Contrastive Decoding應用于多種任務的LLM方法。實驗表明,所提方法能有效改進LLM的推理能力。讓我們走進
    發表于 09-21 11:37 ?424次閱讀
    對比解碼在<b class='flag-5'>LLM</b>上的應用

    從原理到代碼理解語言模型訓練和推理,通俗易懂,快速修煉LLM

    要理解大語言模型(LLM),首先要理解它的本質,無論預訓練、微調還是在推理階段,核心都是next token prediction,也就是以自回歸的方式從左到右逐步生成文本。
    的頭像 發表于 09-19 16:25 ?781次閱讀
    從原理到代碼理解語言模型訓練和推理,通俗易懂,快速修煉<b class='flag-5'>LLM</b>

    Stability AI發布首個用于編程的生成LLM AI產品—StableCode

    Stability AI 近日宣布了他們首個用于編程的生成LLM AI 產品 ——StableCode。該產品旨在幫助程序員完成日常工作,并為新手開發者提供實用的學習工具。
    的頭像 發表于 08-24 11:27 ?669次閱讀
    Stability AI發布首個用于編程的<b class='flag-5'>生成</b>式<b class='flag-5'>LLM</b> AI產品—StableCode

    LLM的長度外推淺談

    蘇神最早提出的擴展LLM的context方法,基于bayes啟發得到的公式
    的頭像 發表于 07-28 17:37 ?1652次閱讀
    <b class='flag-5'>LLM</b>的長度外推淺談
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>