<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

優于10倍參數模型!微軟發布Orca 2 LLM

jf_WZTOguxH ? 來源:AI前線 ? 2023-12-26 14:23 ? 次閱讀

微軟發布 Orca 2 LLM,這是 Llama 2 的一個調優版本,性能與包含 10 倍參數的模型相當,甚至更好。Orca 2 使用了一個合成訓練數據集和一項稱為 Prompt Erasure(提示詞擦除) 的新技術來實現這一性能。

Orca 2 使用了師生模式的訓練方案,其中一個較大、較強的 LLM 作為另一個較小的 LLM(學生)的老師,老師的目標是提升學生的性能,使其與更大模型的性能相媲美。微軟的訓練技術教會較小的模型多種推理技巧,并教其如何為特定任務選擇最有效的技巧。

為此,老師被賦予了復雜的提示詞來觸發某種推理行為。不過,在一種被稱為 Prompt Erasure 的方案中,學生只得到任務要求和期望的響應,而不是老師的提示詞。在基準測試中,一個擁有 13B 參數的 Orca 2 模型的表現超過了一個 13B 參數的基準 Llama 2 模型,提升了 47.54%。而一個擁有 7B 參數的 Orca 2 模型在推理任務方面與一個擁有 70B 參數的 Llama 2 模型相當,甚至更好。

盡管像 ChatGPT 這樣的 LLM 在給定少量提示詞的情況下通常表現良好,但由于其內存和計算需求較大,托管這些模型極具有挑戰性。經過調優的較小的模型也可以表現良好,許多研究人員已經在研究使用較大 LLM 生成的合成數據集對它們進行訓練。

InfoQ 最近報道了谷歌的 Distilling Step-by-Step 方法,該方法會讓老師 LLM 自動生成一個小型的調優數據集,其中包含輸入和輸出標簽,以及為何選擇輸出標簽的“基本原理”。InfoQ 還報道了 Stability AI 的 Stable Beluga 模型,它使用微軟原始的 Orca 1 方案進行訓練,該方案使用了 Explanation Tuning,其中老師 LLM 被提示“生成詳細答案”。

與 Orca 1 類似,Orca 2 訓練數據集是由老師 LLM 生成的,而老師 LLM 收到了詳細的提示詞。然而,微軟新的訓練方法 Cautious Reasoning 將訓練任務與提示詞相結合,引導老師 LLM 使用特定的問題解決策略,如“一步一步”或“解釋你的答案”。然后在學生的訓練過程中,老師的提示詞被刪除,這促使學生學會選擇正確的策略。

為了評估這種方法,微軟將 Orca 2 模型的性能與幾個基準模型進行了比較,包括 Llama 2、ChatGPT(GPT-3.5)和 GPT-4?;鶞嗜蝿瞻ㄍ评?、語言理解、文本完成和摘要。在推理基準測試中,13B 參數 Orca 2 模型優于除 ChatGPT 和 GPT-4 之外的所有基準。他們還發現,給 Orca 2 一個“謹慎”的系統提示詞(“你是一個謹慎的助手,你會仔細遵循指示”)相比無系統提示會略微提升其性能。

有幾位用戶在 X 上發表了關于 Orca 2 的帖子。一位用戶指出:“你不需要用‘一步一步解釋’這樣的技巧來提示它。它自己知道?!?AI 研究員 Rudi Ranck 寫道:

許多絕妙的想法都很簡單……就像 Orca 2 中的“提示詞擦除”一樣:完整的提示詞不會呈現給模型,而只呈現任務和答案(它過濾了生成這些答案所使用的完整提示詞)。這有助于模型在更高層次上制定策略。這是一篇非常好的論文。我強烈建議通讀全文。







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ChatGPT
    +關注

    關注

    28

    文章

    1485

    瀏覽量

    5657
  • LLM
    LLM
    +關注

    關注

    0

    文章

    218

    瀏覽量

    249

原文標題:微軟發布 Orca 2 LLM,表現優于 10 倍參數模型

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    大語言模型(LLM)快速理解

    自2022年,ChatGPT發布之后,大語言模型(LargeLanguageModel),簡稱LLM掀起了一波狂潮。作為學習理解LLM的開始,先來整體理解一下大語言
    的頭像 發表于 06-04 08:27 ?312次閱讀
    大語言<b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)快速理解

    通義千問開源千億級參數模型

    通義千問近日開源了其首個千億級參數模型Qwen1.5-110B,這是其全系列中首個達到千億級別的開源模型。Qwen1.5-110B模型繼承了Qwen1.5系列的Transformer解碼器架構,并在技術上引入了分組查詢注意力方法
    的頭像 發表于 05-08 11:01 ?376次閱讀

    微軟自研5000億參數模型曝光

    微軟近日曝光了其內部正在秘密研發的巨型AI模型——MAl-1,這款模型擁有驚人的5000億參數。據微軟首席技術官Kevin Scott確認,
    的頭像 發表于 05-08 09:56 ?241次閱讀

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優化從 PC 到云端的
    的頭像 發表于 04-28 10:36 ?236次閱讀

    阿里云通義千問發布320億參數模型,優化性能及效率

    與之前的模型相比,新版320億參數模型在性能、效率以及內存占用方面取得了明顯改善。具體來說,32B在智能體場景下能力優于14B模型,并且推理成本較小。
    的頭像 發表于 04-08 14:44 ?295次閱讀

    模型與人類的注意力視角下參數規模擴大與指令微調對模型語言理解的作用

    近期的大語言模型LLM)在自然語言理解和生成上展現出了接近人類的強大能力,遠遠優于先前的BERT等預訓練模型(PLM)。
    的頭像 發表于 01-04 14:06 ?207次閱讀
    <b class='flag-5'>模型</b>與人類的注意力視角下<b class='flag-5'>參數</b>規模擴大與指令微調對<b class='flag-5'>模型</b>語言理解的作用

    微軟正式發布一個27億參數的語言模型—Phi-2

    先后和 OpenAI、Meta 牽手推動大模型發展的微軟,也正在加快自家小模型的迭代。
    的頭像 發表于 12-14 15:45 ?571次閱讀
    <b class='flag-5'>微軟</b>正式<b class='flag-5'>發布</b>一個27億<b class='flag-5'>參數</b>的語言<b class='flag-5'>模型</b>—Phi-2

    阿里云通義千問720億參數模型宣布開源

    12月1日,阿里云通義千問720億參數模型Qwen-72B宣布開源。與此同時,他們還開源了18億參數模型Qwen-1.8B和音頻大模型Qwen-Audio。
    的頭像 發表于 12-01 17:08 ?973次閱讀

    如何為Orca-2-13B創建一個與OpenAI兼容的API服務呢?

    Orca-2-13B[1] 是微軟最新發布Orca 2 系列中的一款模型,Orca 2 另外
    的頭像 發表于 11-27 10:46 ?398次閱讀

    專欄發布 | LLM圈走馬換將?微軟廣告“黑五”來襲 !

    望創達2218億美元。 年度機遇近在眼前,跨境出海企業如何抓住機遇、突破銷售記錄? 對此,LLM或許能夠給出答案。 微軟首席執行官薩提亞·納德拉在剛剛結束的全球Ignite技術大會上曾表示,“生成式AI模型
    的頭像 發表于 11-27 08:15 ?266次閱讀
    專欄<b class='flag-5'>發布</b> | <b class='flag-5'>LLM</b>圈走馬換將?<b class='flag-5'>微軟</b>廣告“黑五”來襲 !

    現已公開發布!歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理

    NVIDIA 于 2023 年 10 月 19 日公開發布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和優化最新的大語言模型(Large Language Mode
    的頭像 發表于 10-27 20:05 ?623次閱讀
    現已公開<b class='flag-5'>發布</b>!歡迎使用 NVIDIA TensorRT-<b class='flag-5'>LLM</b> 優化大語言<b class='flag-5'>模型</b>推理

    如何獲取電容的S參數模型?

    使用Sigirty進行PDN仿真時,比較關鍵的一步是設置電容的S參數模型,近來有不少同學和同行朋友來要一些電容的S參數模型
    的頭像 發表于 10-02 15:04 ?1479次閱讀
    如何獲取電容的S<b class='flag-5'>參數模型</b>?

    mlc-llm對大模型推理的流程及優化方案

    在 MLC-LLM 部署RWKV World系列模型實戰(3B模型Mac M2解碼可達26tokens/s) 中提到要使用mlc-llm部署模型
    發表于 09-26 12:25 ?529次閱讀
    mlc-<b class='flag-5'>llm</b>對大<b class='flag-5'>模型</b>推理的流程及優化方案

    最新綜述!當大型語言模型LLM)遇上知識圖譜:兩大技術優勢互補

    LLM 是黑箱模型,缺乏可解釋性,因此備受批評。LLM 通過參數隱含地表示知識。因此,我們難以解釋和驗證 LLM 獲得的知識。此外,
    的頭像 發表于 07-10 11:35 ?1573次閱讀
    最新綜述!當大型語言<b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)遇上知識圖譜:兩大技術優勢互補

    基于Transformer的大型語言模型LLM)的內部機制

    本文旨在更好地理解基于 Transformer 的大型語言模型LLM)的內部機制,以提高它們的可靠性和可解釋性。 隨著大型語言模型LLM)在使用和部署方面的不斷增加,打開黑箱并了解
    的頭像 發表于 06-25 15:08 ?1126次閱讀
    基于Transformer的大型語言<b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)的內部機制
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>