<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Meta AI重磅推出LIMA!媲美GPT-4、無需RLHF就能對齊!

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-05-24 15:00 ? 次閱讀

昨天Meta AI+CMU這篇文章一出,twitter都炸了!

LIMA,只使用1000個精心挑選的樣本微調一個 65B LLaMa,無需RLHF,性能媲美甚至優于GPT-4!

42dab890-f915-11ed-90ce-dac502259ad0.png

論文:LIMA: Less Is More for Alignment
地址:https://arxiv.org/pdf/2305.11206.pdf

天下人苦“對齊”久矣!要讓預訓練語言模型的響應和特定任務和用戶偏好對齊,動輒需要百萬示例數據集上的instruction tuning、以及最近從人類反饋中進行的強化學習,才能實現ChatGPT級別的性能。

這篇文章旨在用簡單的方法解決復雜的對齊問題,作者提出表面對齊假說(Superficial Alignment Hypothesis),將對齊視為一個簡單的過程:學習與用戶交互的樣式或格式,來展示預訓練期間就已經獲得的知識和能力!

結果發現,少量高質量樣例上的簡單微調就足以與當今最先進的技術競爭!這也證明預訓練過程的強大威力和重要性,遠勝于大規模instruction tuning和強化學習!

4305ce22-f915-11ed-90ce-dac502259ad0.jpg

實驗設置

數據集來源:這1000個近似真實用戶提示和高質量響應的示例中,有750個來自Stack Exchange和wikiHow這樣的社區論壇,其余250個則是手動編寫。

微調的超參數:使用AdamW進行微調,其中,權重衰減為0.1。沒有熱身步驟,初始學習率設置為,并線性地降至訓練結束時的。批量大小設為32個示例(更小的模型為64個),長度大于2048 token的文本將被裁剪。與以往的顯著不同是在殘差連接上應用dropout,從底層的 開始,線性升高到最后一層的 (更小的模型為 )。

基準模型

實驗將 LIMA 與五個基準模型進行比較:

(1)Alpaca 65B:將 LLaMa 65B 在 Alpaca 訓練集中的 52,000 個樣例上進行微調;(2) OpenAI 的DaVinci003,經過 RLHF 訓練的大語言模型;(3) 基于 PaLM 的 谷歌Bard;(4) Anthropic 的Claude, 52B 參數,經過從 AI 反饋進行強化學習 (Constitutional AI) 訓練;(5) OpenAI 的GPT-4,經過 RLHF 訓練,目前認為最先進的大語言模型。

結果

根據人類偏好的實驗結果,LIMA 的表現比 Alpaca 65B 和 DaVinci003 都要更好!盡管Alpaca 65B 的訓練數據量比 LIMA 高52倍,而DaVinci003 采用了 RLHF,一種被認為是更優秀的對齊方法。

Bard 情況要好,在 42% 的時間產生了比 LIMA 更好的響應;然而,這也意味著至少58%的時間, LIMA 的表現和 Bard 相當。

最后,雖然 Claude 和 GPT-4 通常比 LIMA 的表現更加出色,但很多情況下,LIMA 確實能產生更好的響應。有些諷刺的是,即使是 GPT-4 也有19% 的時間會認為 LIMA 的輸出更好。

43353a0e-f915-11ed-90ce-dac502259ad0.png

我們來欣賞下LLaMa的出色表演。藍色文本為prompt,左邊是與訓練集中示例相關的提示,中間是訓練集中不存在的提示,右邊則是挑戰模型拒絕不安全行為。

4340f290-f915-11ed-90ce-dac502259ad0.png

數據質量和多樣性更重要

為了證明LIMA (Less Is More for Alignment)這個少勝于多的觀點,作者通過消融實驗研究了訓練數據的多樣性、質量和數量對模型的影響。

結果發現,數據質量對生成質量存在顯著影響,使用篩選過的數據集訓練的模型與使用未經過濾的數據源訓練的模型之間存在0.5分差異。但是,令人驚訝的是,示例數量的加倍并不能改善響應的質量。這表明對齊的 scaling laws 不僅僅取決于數量,而在于保證質量的同時提高提示的多樣性。

43505276-f915-11ed-90ce-dac502259ad0.png

多輪對話

不過,一個僅在1,000個單輪對話上進行微調的模型能否從事多輪對話(Multi-Turn Dialogue)呢?

在零樣本上,LIMA的響應出奇地連貫,并引用了前面對話的信息。但很明顯,這個模型正在超出分布范圍;在10次交流中有6次,LIMA在3個互動之內未能遵循提示。

為了提高對話能力,作者收集了30個多輪對話鏈。使用組合的1,030個示例對預訓練的LLaMa模型進行微調,得到一個新版本的LIMA,并針對相同的提示進行了10次實時對話。發現加入這30個示例后生成質量顯著提升,優質響應比例從45.2%提高到76.1%!

43857960-f915-11ed-90ce-dac502259ad0.png

30個樣本的有限監督就能調用模型的多輪對話能力,這也支持了作者提出的表面對齊假說,即:這些能力是在預訓練期間學習的。

總結

作者在discussion部分指出了該方法的一系列問題:比如構建數據集示例需要巨大的腦力投入、難以擴展,不如產品級別的模型穩健等~

話雖如此,這篇研究證明了簡單方法就有解決復雜對齊問題的潛力。幾乎所有大語言模型中的知識都是在預訓練期間學習的,教導模型產生高質量輸出只需少量但精心的instructional tuning.

簡單才是王道!

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    463

    瀏覽量

    10128
  • CMU
    CMU
    +關注

    關注

    0

    文章

    19

    瀏覽量

    15148
  • ChatGPT
    +關注

    關注

    28

    文章

    1481

    瀏覽量

    5508

原文標題:Meta AI 重磅推出LIMA!媲美GPT-4、無需RLHF就能對齊!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ChatGPT升級 OpenAI史上最強大模型GPT-4發布

    ChatGPT升級 史上最強大模型GPT-4發布 OpenAI正式推出了ChatGPT升級版本,號稱史上最強大模型GPT-4發布。OpenAI期待GPT-4成為一個更有價值的
    的頭像 發表于 03-15 18:15 ?2487次閱讀

    Open AI團隊發推正式宣布:GPT-4來了!

    對于 GPT-4 的實際能力,團隊也給大家提前打了一針強心劑,即便 GPT-4 在許多現實世界場景中能力不如人類,但在各種專業和學術基準上的表現,還是超過了人類的平均水平。
    的頭像 發表于 03-16 11:10 ?1820次閱讀

    關于GPT-4的產品化狂想

    GPT-4是條件,而不是結果
    的頭像 發表于 03-26 10:48 ?2656次閱讀
    關于<b class='flag-5'>GPT-4</b>的產品化狂想

    GPT-4是這樣搞電機的

    GPT-4寫電機基礎程序沒問題
    的頭像 發表于 04-17 09:41 ?732次閱讀
    <b class='flag-5'>GPT-4</b>是這樣搞電機的

    微軟GPT-4搜索引擎重大升級 新Bing開放AI能力

    GPT-4,GPT-4有更強悍的能力可以提供創意性文章創作和圖像識別功能。微軟馬上跟進,宣布旗下的Bing Chat已經升級使用了OpenAI提供的GPT-4技術。 現在,微軟公司在官網聲明稱,基于
    的頭像 發表于 05-05 17:15 ?2331次閱讀

    一樣媲美GPT-4、Bard,Meta發布650億參數語言模型LIMA

    該研究使用了一個 65B 參數的 LLaMa 模型(該模型稱為 LIMA)在 1000 個精選樣本上進行有監督學習,在完全沒使用 RLHF 方法的情況下,LIMA 表現出非常強大的性能,并且能夠很好地泛化到訓練數據以外的任務上。
    的頭像 發表于 05-24 11:46 ?648次閱讀
    一樣<b class='flag-5'>媲美</b><b class='flag-5'>GPT-4</b>、Bard,<b class='flag-5'>Meta</b>發布650億參數語言模型<b class='flag-5'>LIMA</b>

    GPT-4處于一個什么樣的編碼地位

    Greg Brockman 演示了 GPT-4 將一張手繪草稿架構圖變成一個現實可滑動的網站;同時,它也能幫助我們直接生成代碼,甚至當我們把代碼運行報錯的界面截一個圖發給 GPT-4 時,它就能給出相應的解決
    的頭像 發表于 06-16 10:42 ?481次閱讀
    <b class='flag-5'>GPT-4</b>處于一個什么樣的編碼地位

    GPT-4已經會自己設計芯片了嗎?

    ? GPT-4已經會自己設計芯片了!芯片設計行業的一個老大難問題HDL,已經被GPT-4順利解決。并且,它設計的130nm芯片,已經成功流片。 GPT-4,已經可以幫人類造芯片了! 只用簡單的英語
    的頭像 發表于 06-20 11:51 ?652次閱讀
    <b class='flag-5'>GPT-4</b>已經會自己設計芯片了嗎?

    GPT-4催生的接口IP市場空間

    GPT-4大語言模型公布以來,百度、阿里、知乎、出門問問等國內互聯網公司紛紛跟進,在近兩個月中相繼推出了自家的產品。日前,鮮有公開演講的奇績創壇創始人兼CEO陸奇也分享了他對大模型時代的宏觀思考
    的頭像 發表于 07-03 14:17 ?595次閱讀

    GPT-4沒有推理能力嗎?

    今年三月,OpenAI 重磅發布了 GPT-4 大模型,帶來了比 ChatGPT 背后 GPT-3.5 更強的推理、計算、邏輯能力,也引發了全民使用的熱潮。在各行各領域研究人員、開發者、設計師的使用過程中,「
    的頭像 發表于 08-11 14:20 ?701次閱讀
    <b class='flag-5'>GPT-4</b>沒有推理能力嗎?

    ChatGPT重磅更新 OpenAI發布GPT-4 Turbo模型價格大降2/3

    ChatGPT重磅更新 OpenAI發布GPT-4 Turbo模型價格大降2/3 目前OpenAI算是全球大模型的引領者,一舉一動都牽動著大家的關注,現在ChatGPT迎來重磅更新。 OpenAI
    的頭像 發表于 11-07 18:20 ?2263次閱讀
    ChatGPT<b class='flag-5'>重磅</b>更新 OpenAI發布<b class='flag-5'>GPT-4</b> Turbo模型價格大降2/3

    AI觀察 | 今年最火的GPT-4,正在締造科幻版妙手仁心!

    近來,微軟對于提示工程能力的最新研究 1 (鏈接詳見文末)再次吸引了一眾媒體的目光:“無需額外微調、無需專業策劃,僅憑提示GPT-4就能化身專家!”報道中這樣描述道 2 。 基于最新提
    的頭像 發表于 12-11 08:15 ?307次閱讀
    <b class='flag-5'>AI</b>觀察 | 今年最火的<b class='flag-5'>GPT-4</b>,正在締造科幻版妙手仁心!

    ChatGPT plus有什么功能?OpenAI 發布 GPT-4 Turbo 目前我們所知道的功能

    OpenAI 發布 GPT-4 Turbo 目前我們所知道的功能分析解答 在最近的OpenAI DevDay上,該組織發布了一項備受期待的公告:推出GPT-4 Turbo,這是對其突破性AI
    的頭像 發表于 12-13 09:19 ?707次閱讀
    ChatGPT plus有什么功能?OpenAI 發布 <b class='flag-5'>GPT-4</b> Turbo 目前我們所知道的功能

    OpenAI推出ChatGPT新功能:朗讀,支持37種語言,兼容GPT-4GPT-3

    據悉,“朗讀”功能支持37種語言,且能夠自主識別文本類型并對應相應的發音。值得關注的是,該功能對GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“多模態交互”(multimodal capab
    的頭像 發表于 03-05 15:48 ?396次閱讀

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級至GPT-4取得顯著進步,如今再次更新至性能卓越的GP
    的頭像 發表于 03-13 13:42 ?334次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>