<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

分析自動評測器的工具包

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-06-17 14:11 ? 次閱讀

除了各類開源模型外,還有GPT-4、PaLM 2等眾多「閉源」模型,甚至還開設了一個「準中文」排行榜。

最近,來自斯坦福的團隊,也發布了一款LLM自動評測系統——AlpacaEval,以及對應的AlpacaEval Leaderboard。

在斯坦福的這個排行榜中,GPT-4依然以絕對領先的優勢奪得第一,勝率超過了95%。

緊隨其后的是,勝率都在80%以上的Claude和ChatGPT。其中,Claude以不到3%的優勢拿下第二,而ChatGPT則位列第三。

此次獲得第四名的,則是一位排位賽新人——微軟華人團隊發布的WizardLM。

UC伯克利的Vicuna發揮依然穩定,憑借著超過70%的勝率排在第六。

相比之下,斯坦福自己的Alpaca卻只排到了第16……

其實,團隊自從原始的Alpaca推出以來,已經做了不小的改進——勝率從26%提升到了44%,但依然距離領獎臺很遠。

對此,其中一位作者有些無奈地表示:「是不是我們哪里做的不對?」

AlpacaEval:易使用、速度快、成本低、經過人類標注驗證

AlpacaEval把AlpacaFarm和Aviary進行了結合。

一方面使用與AlpacaFarm相同的代碼(緩存/隨機排列/超參數),另一方面則使用類似于Aviary的排序提示。

與此同時,還對Aviary的提示進行了修改,從而減少對較長輸出的偏見。

團隊表示,AlpacaEval有著拔群的效果:

與人類多數票的一致性,高于單個人類標注者

勝率與人類標注高度相關(0.94)

相比于lmsys評測器,有顯著提升(從63%提高到69%)

685d061e-0cd3-11ee-962d-dac502259ad0.png

勝率

模型的輸出在每個指令上優于text-davinci-003(即參考文本)的比例。

具體而言,首先從AlpacaEval數據集中收集了期望模型在每個指令上的輸出對,并將每個輸出與相同指令下的參考模型(text-davinci-003)的輸出進行配對。

隨后,把這些輸出同時喂給自動評測器,讓它去判斷哪一個更好(也就是評測器的偏好)。

最后,將數據集中所有指令的偏好進行平均,從而得到模型相對于text-davinci-003的勝率。如果兩個模型打平,那么就算半個偏好。

686540ea-0cd3-11ee-962d-dac502259ad0.png

論文地址:
https://arxiv.org/pdf/2305.14387.pdf

標準誤差

勝率的標準誤差(通過N-1進行歸一化),即不同指令上的平均偏好。

686f295c-0cd3-11ee-962d-dac502259ad0.png

不同評測器的對比

團隊通過與收集的2.5K個人工標注(每個指令平均包含4個人工標注)進行比較,評測了AlpacaEval數據集上的不同自動標注程序。

687ad73e-0cd3-11ee-962d-dac502259ad0.png▲斯坦福的評測器(alpaca_eval_gpt4)、之前的自動評測器(alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4)、人類(humans)以及不同基準模型(gpt4、claude、text_davinci_003、guanaco_33b、chatgpt)的測試結果

人類一致性:標注者與交叉標注集中人類多數票之間的一致性

為了估計單個人類標注者(表格中的humans行)與多數人類之間的一致性,首先需要選取一個標注,并計算其在預測其他3個標注的眾數時的準確率。

然后,將所有4個標注和650個指令上的準確率求平均,得到人類一致性,即計算預期的(對于人類和樣本)留一法一致性。如果眾數不唯一,我們隨機選擇其中一個眾數。

對于自動標注器,我們進行完全相同的計算,以便最終的結果可以進行比較。

價格:每1000個標注的平均價格

對于人類來說,這是支付眾包工人進行這些標注的價格(每小時18美元)。如果價格取決于用于計算標注的機器(例如Guanaco),則將其留空。

時間:計算1000個標注所需的平均時間

對于人類來說,這是每個眾包工人標注1000個示例所需時間的中位數。

對于自動標注器,這是運行標注所需的平均時間。值得注意的是,這可能取決于不同用戶的API限制以及集群正在處理的請求數量。

6887ceda-0cd3-11ee-962d-dac502259ad0.png

最后,為了進一步改善自動評測流程,團隊發布了:

一個易于定制的流程

模型和自動評測器的排行榜

分析自動評測器的工具包

18K人類標注

2K人類交叉標注

局限性

雖然AlpacaEval提供了一個有用的比較模型,但它并不是一個全面的的模型能力評測系統,其局限性可以概括為以下三點:

指令比較簡單

評分時可能更偏向于風格而非事實

沒有衡量模型可能造成的危害
責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6410

    瀏覽量

    103149
  • 代碼
    +關注

    關注

    30

    文章

    4569

    瀏覽量

    67063
  • 工具包
    +關注

    關注

    0

    文章

    45

    瀏覽量

    9468

原文標題:斯坦福最新LLM排行榜發布!自家Alpaca墊底,華人團隊WizardLM開源第一,GPT-4、Claude穩居前二

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    LabVIEW 2011模塊和工具包(圖像和信號處理)

    `將數百種特定應用程序的圖像和信號處理函數集成到NI LabVIEW應用程序中。 可將NI LabVIEW擴展至特定的應用,如:聲音和振動測量、機器視覺、RF通信、瞬時與短時信號分析等。 包括NI LabVIEW高級信號處理工具包、數字濾波
    發表于 08-02 15:27

    LabVIEW 2011模塊和工具包(軟件開發與發布)

    `使用各種軟件工程工具,開發并配置高質量的NI LabVIEW專業應用程序。包括NI LabVIEW應用程序生成器 (Windows版)、NI LabVIEW VI分析工具包、NI LabVIEW狀態圖模塊、NI需求網關 (R
    發表于 08-02 15:28

    LabVIEW 2011模塊和工具包(控制設計和仿真)

    `NI 提供完整的系統辨識,控制設計,仿真和控制執行模塊工具,利用這些模塊和工具包能方便客戶進行算法開發、分析和驗證`
    發表于 08-02 15:33

    PID工具包

    新手求助:PID工具包怎么用?
    發表于 05-06 09:57

    Labview2010如何加載工具包

    本帖最后由 eehome 于 2013-1-5 09:41 編輯 Labview2010如何加載工具包?安裝了2010以后沒看到工具包的激活選項或者安裝選項請教前輩下如何選擇加載工具包
    發表于 12-31 15:36

    PIC 語言工具包問題

    大家好,PIC 我是新手,有個簡單的問題請教一下,就是我導入一個mcp的,mplab會報語言工具包不對,這個要如何處理,因我導的是網上下下來的,所以不知道之前用的是什么語言工具包
    發表于 04-19 14:00

    基于聲音與振動工具包的振動測量分析

    本帖最后由 xiaogengniu 于 2013-5-4 12:38 編輯 基于聲音與振動工具包的振動測量分析
    發表于 05-04 12:37

    fastrbf工具包

    求matlab中fastrbf的工具包 ,有誰有這個工具包呢?求分享?急需
    發表于 03-05 20:05

    工具包

    誰有 Excel和MS Office Report專用工具包。
    發表于 04-08 19:55

    關于labview工具包

    請問各位大神一個問題,LabVIEW的工具包如何下載,比如聲音和振動工具包,官網上只有下載界面。
    發表于 09-04 19:27

    STK (衛星工具包

    STK是Satellite Tool Kit的簡稱,即衛星工具包。STK提供分析引擎用于計算數據、并可顯示多種形式的二維地圖,顯示衛星和其它對象如運載火箭、導彈、飛機、地面車輛、目標等。STK的核心
    發表于 04-15 20:02

    工具包

    誰有labview視覺工具包2013適用的??分享一下,不勝感激
    發表于 04-27 23:28

    SAM9G45-EK評測工具包怎么樣?

    愛特梅爾公司(Atmel? Corporation)宣布推出SAM9G45-EK評測工具包,支持基于愛特梅爾400 MHz ARM926?之嵌入式微處理(MPU)并帶有DDR2存儲
    發表于 09-19 07:14

    labview 2015 開發環境以及機器視覺工具包

    4.分析內存泄漏的桌面追蹤工具包。鏈接:https://pan.baidu.com/s/1s2dwtwn4o-5HfaECT_n3vw提取碼:hxxn
    發表于 12-04 18:56

    SAM9G45評測工具包(Atmel)

    SAM9G45評測工具包(Atmel) 愛特梅爾公司(Atmel® Corporation)宣布推出SAM9G45-EK評測工具包,支持基于愛特梅爾400 MHz ARM92
    發表于 11-02 09:35 ?1001次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>