<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

基于ICL范式的LLM的最高置信度預測方案

作者：cola

雖然大多數現有的LLM提示工程只專注于如何在單個提示輸入中選擇一組更好的數據樣本(In-Context Learning或ICL)，但為什么我們不能設計和利用多個提示輸入來進一步提高LLM性能?本文提出上下文采樣(ICS)，一種低資源LLM提示工程技術，通過優化多個ICL提示輸入的結構來產生最有置信度的預測結果。

介紹

指令微調的LLMs，如Flan-T5、LLaMA和Mistral展示了通用的自然語言理解(NLI)和生成(NLG)能力。然而，解決實際任務需要廣泛的領域專業知識，這對LLM來說仍然具有挑戰性。研究人員提出了各種激勵策略來探索LLM的能力。一個突出的方法是少樣本上下文學習(ICL)，通過向提示輸入插入一些數據示例，特別是對未見任務的能力提高了LLM的任務解釋和解決能力。最近的幾項工作研究了不同ICL設置的影響，包括數量、順序和組合。然而，最好的ICL策略還沒有共識。

本文假設不同的ICL為LLM提供了關于任務的不同知識，導致對相同數據的不同理解和預測。因此，一個直接的研究問題出現了:llm能否用多個ICL提示輸入來增強，以提供最可信的預測？為解決這個問題，本文提出上下文采樣(ICS)。ICS遵循三步流程:采樣、增強和驗證，如圖1所示。

ICS策略

給定一個自然語言任務指令和一個數據，指令微調的SOTA可以接受輸入，生成一個輸出，其中表示上下文中的注釋示例，是預測結果。

示例可以為LLM提供：

直接理解任務指令(I)和預期輸出

間接指導如何解決任務。

本文假設不同的ICL示例集為LLM提供了關于該任務的不同知識。因此，LLM可以根據不同的ICL提示輸入改變對相同數據的預測，但預測的變化最終將收斂到一個最可信的預測。

ICS的框架如圖1所示。

從未標記的數據池中采樣示例候選集并獲取注釋，

用不同的ICL組合增加標簽，

驗證置信度最高的標簽作為增強標簽的最終預測。

ICS方法是模型無關的且“即插即用”，可以以最小的工作量切換到不同的采樣、增強和驗證算法。

示例候選集采樣

從許多未標記的數據中采樣少量數據作為ICL示例，通常分為兩種類型:基于數據多樣性和基于模型概率。我們的策略堅持基于集群的策略(即核心集)，旨在識別代表所有未標記數據的示例，同時最大化這些選定實例的多樣性。該策略用句子轉換器編碼計算每個數據的余弦相似度，其中embed表示句Transformer Embedding。然后，根據相似度得分對候選樣本進行排序，并檢索個相同間隔的樣本集，以保證樣本集的多樣性。本文試圖確定樣本量和增強的ICL組合數量，在下面三個角度上取得平衡:

包含足夠的多樣性充分表示基礎數據，

置信預測具有魯棒性，

最小化注釋成本。

ICL組合增強

如圖1所示，ICS通過為要預測的相同數據構建不同的ICL組合來增強標簽，然后獲得所有標簽中置信度最高的標簽。然而，如果要求LLM預測候選的每個組合，計算量可能會很大。我們認為，ICS不需要每個ICL組合來找到模型的最可信的標簽。類似于人類投票，少數代表代表更多的人口投票，我們計劃調查合理數量的“代表”，即及時的輸入。用一個隨機和基于數據多樣性的算法作為基準，用于示例增強，并研究了策略差異的影響。兩種方法都是從候選列表中迭代采樣次，其中基于多樣性的增強策略使用上述策略。然后對相同的測試數據查詢LLM次，得到個弱標簽，記為。

置信標簽驗證

既然我們從上述ICS步驟中獲得了一組標簽，就可以應用一些驗證算法來找到置信度最高的標簽，獲得了最可信的預測?？梢韵胂驣CL有潛力提供模型可信的無監督標簽，以在資源匱乏的場景中迭代地微調LLM，這些場景中專家注釋難以訪問且昂貴。

實驗

實驗設置

采用了兩個SOTA LLMs FLAN-T5-XL和Mistral，并在三個難度越來越大的NLI任務上進行實驗:eSNLI、Multi-NLI和ANLI。排除了LLaMA-2的原因是初步實驗顯示了LLaMA-2在“中性”類別上有過擬合問題。我們使用vanilla ICL作為基線。利用隨機抽樣來構建基礎ICS策略的ICS提示輸入，并使用多數代表方法來找到最可信的標簽。對每個提示輸入使用3個示例。操作ICS的兩個控制變量:采樣的代表性數據的大小，其中，以及每個待預測數據的增強示例組合的數量，其中，其中是ICL基線。對于真實場景，500個注釋是一個合理的預算。在10次試驗中取平均值。

對LLaMA-2進行分析

利用三種不同的自然語言指令，在ANLI上對LLaMA-2進行初始推理實驗:

確定一個假設是否是蘊涵的，中性的，矛盾的前提。

將一對前提和假設句分為三類:蘊涵句、中性句、矛盾句。

通過蘊涵、中性、矛盾來預測前提和假設之間的關系。

結果如表2所示，我們可以很容易地觀察到，盡管改變了指令，LLaMA-2傾向于過度預測其他兩個類別的"中性"，而真實分布是跨類別的。因此，我們在工作中省略了LLaMA-2?？赡苡胁煌脑驅е铝诉@個問題;例如，LLaMA-2對NLI任務或共享同一組目標類別("蘊含"、"中性"和"矛盾")的類似任務進行了過擬合。

實驗結果

在圖2中，我們展示了時，基線ICL和我們的ICS策略對每個模型和數據集的預測精度?；€和我們的策略之間的標準差變化也用右縱軸的虛線表示。以隨機采樣策略為基準的ICS策略，可以不斷提高LLM在每個組合中的預測性能，證明了所提出的ICS管道的有效性。

此外，我們觀察到LLM對ICS有明顯的敏感性。具體來說，對于Flan-T5來說，ICS策略提供的精度提升遠小于Mistral，這可以歸因于Flan-T5可能會過擬合我們實驗的三個數據集或NLI任務。另一方面，Mistral證明了ICS策略對準確性的顯著提升，在所有數據集上的平均提升超過5%。當時，兩個模型的標準偏差減少得最多，當超過10時，增加的提供的性能改善開始逐漸減少。對于示例候選采樣，一旦超過100，精度的提高就不顯著。樣本量超過100可以被認為具有足夠的多樣性和代表性。

表3和表4報告了對FlanT5XL和Mistral-7b的完整評估結果。

消融實驗

使用Mistral-7B和性能最佳的設置:和。從3個NLI數據集中隨機采樣3000和1000數據作為訓練集和測試集。我們共進行了4種情況下的10次試驗，記為組合策略，其中RD為隨機策略，DS為基于數據相似性的策略。實驗結果如表1所示：

基于多樣性的示例候選采樣和組合增強策略可以有效提高ICL的性能。

總結

本文提出上下文采樣(ICS)，一種新的基于ICL的范式，用于探測LLM的最高置信度預測。實驗結果表明，與傳統的ICL方法相比，ICS方法提高了ICL的準確性，降低了標準偏差。還研究了不同樣本數量和ICL組合量的影響，然后進一步進行消融實驗，以說明基于ICS簡單但有效的數據多樣性采樣策略的有用性。

限制

本文的主要重點是提出并證明ICS的有效性。然而，盡管對不同的和組合進行了廣泛的實驗，但仍有幾個潛在變量需要進一步分析。例如，盡管我們考慮了3個不同難度的數據集，并且每個ICL組合是任意的，但3個數據集都是NLI任務。此外，只進行了一項基于數據多樣性的候選采樣和組合增強策略的小規模消融研究。并且我們的實驗原本打算由三個SOTA LLM組成，但由于LLaMA-2傾向于預測“中性”類別，因此不包括它。我們仍有各種其他的指令微調LLM沒有包括在這項工作中，如InstructGPT。

審核編輯：黃飛

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

轉換器

轉換器

+關注

關注
27

文章
8282

瀏覽量
143423
Sample

Sample

+關注

關注
0

文章
10

瀏覽量
8671
自然語言

自然語言

+關注

關注
1

文章
271

瀏覽量
13236
prompt

prompt

+關注

關注
0

文章
12

瀏覽量
2636
LLM

LLM

+關注

關注
0

文章
218

瀏覽量
249

原文標題：ICL的時候，更多sample好還是更多prompt好呢？

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

ICL5102和ICL5101有什么區別？

ICL5102和ICL5101有什么區別？我從哪里可以獲得準確的信息？

發表于 05-29 07:47

縱觀全局：YOLO助力實時物體檢測原理及代碼

YOLO 流程的最后一步是將邊界框預測與類別概率相結合，以提供完整的檢測輸出。每個邊界框的置信度分數由類別概率調整，確保檢測既反映邊界框的準確性，又反映模型對對象類別的置信度。

的頭像

發表于 03-30 14:43 ?1401次閱讀

LLM推理加速新范式！推測解碼（Speculative Decoding）最新綜述

這個問題隨著LLM規模的增大愈發嚴重。并且，如下左圖所示，目前LLM常用的自回歸解碼（autoregressive decoding）在每個解碼步只能生成一個token。這導致GPU計算資源利用率

的頭像

發表于 01-29 15:54 ?792次閱讀

<b class='flag-5'>LLM</b>推理加速新<b class='flag-5'>范式</b>！推測解碼（Speculative Decoding）最新綜述

低比特量化技術如何幫助LLM提升性能

針對大語言模型 (LLM) 在部署過程中的性能需求，低比特量化技術一直是優化效果最佳的方案之一，本文將探討低比特量化技術如何幫助 LLM 提升性能，以及新版 OpenVINO 對于低比特量化技術的支持。

的頭像

發表于 12-08 15:26 ?745次閱讀

低比特量化技術如何幫助<b class='flag-5'>LLM</b>提升性能

基于單一LLM的情感分析方法的局限性

LLM的發展為情感分析任務帶來的新的解決方案。有研究人員使用LLM，在上下文學習(in-context learning, ICL)的范式下

的頭像

發表于 11-23 11:14 ?508次閱讀

基于單一<b class='flag-5'>LLM</b>的情感分析方法的局限性

對比解碼在LLM上的應用

為了改進LLM的推理能力，University of California聯合Meta AI實驗室提出將Contrastive Decoding應用于多種任務的LLM方法。實驗表明，所提方法能有效改進LLM的推理能力。讓我們走進

發表于 09-21 11:37 ?424次閱讀

對比解碼在<b class='flag-5'>LLM</b>上的應用

什么是編程范式？常見的編程范式有哪些？各大編程范式詳解

本文給大家介紹了什么是"編程范式"，選擇合適的編程范式可以提高代碼的可讀性、可維護性和可擴展性。

發表于 08-10 10:29 ?1418次閱讀

清華&西電提出HumanMAC：人體動作預測新范式

人體動作預測是計算機視覺和圖形學中的一個經典問題，旨在提升預測結果的多樣性、準確性，并在自動駕駛、動畫制作等多領域有非常多具體的應用。本研究梳理了今年來大家對于該問題的建模方式，認為以往的大多數工作對于動作預測任務都是使用一種e

的頭像

發表于 07-17 16:56 ?367次閱讀

清華&西電提出HumanMAC：人體動作<b class='flag-5'>預測</b>新<b class='flag-5'>范式</b>

最新綜述！當大型語言模型（LLM）遇上知識圖譜：兩大技術優勢互補

LLM 是黑箱模型，缺乏可解釋性，因此備受批評。LLM 通過參數隱含地表示知識。因此，我們難以解釋和驗證 LLM 獲得的知識。此外，LLM 是通過概率模型執行推理，而這是一個非決斷性的

的頭像

發表于 07-10 11:35 ?1573次閱讀

最新綜述！當大型語言模型（<b class='flag-5'>LLM</b>）遇上知識圖譜：兩大技術優勢互補

ICL3221、ICL3222、ICL3223、ICL3232、ICL3241、ICL3243 數據表

ICL3221、ICL3222、ICL3223、ICL3232、ICL3241、ICL3243

發表于 07-06 18:49 ?0次下載

<b class='flag-5'>ICL</b>3221、<b class='flag-5'>ICL</b>3222、<b class='flag-5'>ICL</b>3223、<b class='flag-5'>ICL</b>3232、<b class='flag-5'>ICL</b>3241、<b class='flag-5'>ICL</b>3243 數據表

ICL3221E、ICL3222E、ICL3223E、ICL3232E、ICL3241E、ICL3243E 數據表

ICL3221E、ICL3222E、ICL3223E、ICL3232E、ICL3241E、ICL

發表于 07-06 18:48 ?0次下載

<b class='flag-5'>ICL</b>3221E、<b class='flag-5'>ICL</b>3222E、<b class='flag-5'>ICL</b>3223E、<b class='flag-5'>ICL</b>3232E、<b class='flag-5'>ICL</b>3241E、<b class='flag-5'>ICL</b>3243E 數據表

ICL3225、ICL3245 數據表

ICL3225、ICL3245 數據表

發表于 07-06 18:41 ?0次下載

<b class='flag-5'>ICL</b>3225、<b class='flag-5'>ICL</b>3245 數據表

ICL3225E、ICL3227E、ICL3245E 數據表

ICL3225E、ICL3227E、ICL3245E 數據表

發表于 07-06 18:41 ?0次下載

<b class='flag-5'>ICL</b>3225E、<b class='flag-5'>ICL</b>3227E、<b class='flag-5'>ICL</b>3245E 數據表

ICL3224E、ICL3226E、ICL3244E 數據表

ICL3224E、ICL3226E、ICL3244E 數據表

發表于 07-06 18:40 ?0次下載

<b class='flag-5'>ICL</b>3224E、<b class='flag-5'>ICL</b>3226E、<b class='flag-5'>ICL</b>3244E 數據表

ICL7660S、ICL7660A 數據表

ICL7660S、ICL7660A 數據表

發表于 07-05 19:06 ?1次下載

<b class='flag-5'>ICL</b>7660S、<b class='flag-5'>ICL</b>7660A 數據表

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看

<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>