<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

MOE與MOT:提升LLM效能的關鍵策略比較

深度學習自然語言處理 ? 來源:知乎:北方的郎 ? 2024-04-15 09:53 ? 次閱讀

事實證明,LLM的表現與模型大小和可擴展性呈正相關。這種擴展伴隨著計算資源的擴展,也就是說,模型越大,成本就越高。

eb343318-fa7c-11ee-a297-92fbcf53809c.png

eb4b5bce-fa7c-11ee-a297-92fbcf53809c.jpg

基于參數計數的 LLM 性能

這是該行業面臨的最大挑戰之一。雖然專家混合(Mixture of Experts:MOE)最近被大肆宣傳用于改進Transformer模型,但機器學習人員發現了一種更有前途的新方法——令牌混合(Mixture of Tokens:MOT)。MOE在嘗試不同模型時表現出的某些缺點導致需要其他方法。在這篇博文中,我們將討論這些新技術,并研究 MoT 在保持訓練和推理成本的同時擴展大型語言模型的方式。

Mixture of Experts

Mixture of Experts 因顯著優化 Transformer 的可擴展性而聞名。要理解這一點,我們首先要了解這些“專家”是誰。在 MoE 中,專家是專門執行一項或多項任務的模型。在標準Transformer模型中,令牌(token)由標準前饋層處理。MoE 沒有采用這種方法,而是將每個token定向到一組專家以及一個稱為控制器的小型網絡。該控制器確保每個令牌僅由一小部分專家處理。

開關Transformer將每個令牌發送給控制器產生的得分最高的一位專家。這項技術導致參數大幅減少——從 1.6T 模型(T5 架構)到等效 1.4B vanilla Transformer 的 FLOPS 成本。

專家選擇提供了一種略有不同的方法。不是讓token選擇前 k 個專家,而是專家自己選擇前 k 個token。該方法保證了均勻的負載平衡(每個專家接收相同數量的令牌),并在訓練效率和下游性能方面取得了顯著的進步。然而,存在某些Token不被選擇的風險。

eb5e580a-fa7c-11ee-a297-92fbcf53809c.jpg

MoE 方法:從左到右:標準前饋、開關、專家選擇


當前方法的局限性

雖然大參數 MoE 架構的性能令人印象深刻,但它們在訓練和推理過程中面臨著一系列新的挑戰。最值得注意的是:

訓練不穩定性:這種方法謹慎地選擇專家并將其與token匹配。這意味著控制器權重的微小變化可能會對控制器決策產生不成比例的影響。

負載不平衡: MoE 的問題是我們無法有效地平衡令牌和專家的分配方式,因為路由網絡的選擇沒有受到有效的限制。這就是為什么有些令牌沒有任何專家來處理它們(令牌丟棄),并且幾乎所有令牌都只分配給少數專家(模型崩潰)。

信息泄漏:一些成功的 MoE 方法將序列中不同位置的令牌一起處理(即,通過比較批次中所有令牌的分數)。這造成了序列內信息泄漏并阻礙了它們在自回歸解碼中的實用性。

知識混合性:由于專家數量有限,傳統 MoE 架構中的專家通常會積累廣泛的知識。這種廣泛的知識庫削弱了個別專家的專業性和有效性。

知識冗余:多個專家在學習相似信息時有趨同的傾向,導致知識領域重疊和模型參數使用效率低下。

在他們最近的論文中,Cohere AI 的科學家討論了解決MOE主要挑戰之一的方法——必須將所有專家存儲在內存中。他們通過將 MoE 架構與輕量級專家獨特地結合起來,提出了參數極其高效的 MoE。他們的 MoE 架構優于標準 PEFT 方法,并且僅通過更新輕量級專家即可達到完全微調的效果——不到 11B 參數模型的 1%。

解決MOE的限制

在他們最近的論文中,Cohere AI 的科學家討論了解決MOE主要挑戰之一的方法——將所有專家存儲在內存中。他們通過將 MoE 架構與輕量級專家獨特地結合起來,提出了一種參數極其高效的 MoE。他們的 MoE 架構優于標準 PEFT 方法,并且僅通過更新輕量級專家即可達到完全微調的效果——不到 11B 參數模型的 1%。

最近的一篇論文討論了 MoE 的最后兩個局限性,并提出了一種解決這些問題的新技術——DeepSeekMoE。這是新的 MoE 架構,旨在通過采用兩個關鍵策略來增強專家專業化:細粒度專家分割和共享專家隔離。

細粒度專家分割(Fine-grained expert segmentation)涉及細分 FFN 中間隱藏維度,從而允許細粒度專家之間更細致地分配知識。這種細分使每個專家能夠專注于更具體的知識領域,從而在保持恒定的計算成本的同時實現更高水平的專業化。

同時,共享專家隔離(shared expert isolation)策略將特定專家指定為“共享”,負責捕獲不同背景下的共同知識。通過將一般知識集中在這些共享專家上,減少了其他專家學習過程中的冗余。這種方法提高了參數效率,并確保每位專家始終專注于獨特且獨特的知識領域。

eb6c6756-fa7c-11ee-a297-92fbcf53809c.jpg

DeepSeekMoE。在這三種架構中,專家參數的數量和計算成本保持不變

DeepSeekMoE 經過擴展可訓練 16B 模型,只需約 40% 的計算量,即可實現與 DeepSeek 7B 和 LLaMA2 7B 相當的性能。研究人員還計劃將 DeepSeekMoE 擴展到 145B,突出其相對于 GShard 架構的優勢,并展示與 DeepSeek 67B 相當的性能。

Token混合(Mixture of Tokens)

MoE 的幾個缺點導致了混合Token(MoT)的興起。這種對方法的輕微修改解決了所討論的方法帶來的許多問題。MoT 不是將token發送給專家,而是將不同示例中的token混合在一起,然后再將其提供給專家。這使得模型能夠從所有token-專家組合中學習,并提高訓練穩定性和專家利用率。在向專家提供token后,每種混合物都會被處理并重新分配回原始token。

token混合是如何進行的?首先,您需要為每個token設置重要性權重。這是通過控制器完成的,然后是對生成的token分數執行 softmax 層。因此,每個專家的token權重是獨立計算的。最后,將每個token乘以其重要性權重,然后將它們全部加在一起。

eb948646-fa7c-11ee-a297-92fbcf53809c.jpg

令牌混合:每個專家的令牌都是唯一混合的(混合權重由控制器決定,為簡單起見,此處省略),然后處理每個混合物并將其重新分配回原始令牌(使用與之前相同的權重)。

MoT 通過進行以下更改來解決 MoE 模型的問題:

混合來自不同示例的token,然后將其提供給專家;通過允許模型從所有token-專家組合中學習,這提高了訓練穩定性和專家利用率。

token混合是一個完全可微的模型,這意味著它可以使用標準的基于梯度的方法進行訓練。這避免了輔助損失或其他難以訓練的技術的需要,從而更容易訓練和部署?!?/p>

eba0062e-fa7c-11ee-a297-92fbcf53809c.jpg

MoE 與 MoT:在專家混合中(左),每個令牌都被路由到不同的專家前饋層。在令牌混合(右)中,每組內的令牌被混合,并且混合令牌由專家前饋層處理。

結論

toke混合有可能顯著提高LLM的表現和效率。與普通 Transformer 相比,它顯示出訓練時間減少了 3 倍的驚人結果。未來,我們預計 MoT 將繼續帶來更顯著的改進。

ebaa9030-fa7c-11ee-a297-92fbcf53809c.jpg

MoTs 僅用 1/4 的步數和 1/3 的訓練時間就減少了密集香草 Transformer 的最終訓練損失,預計未來將顯著改善。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 控制器
    +關注

    關注

    112

    文章

    15392

    瀏覽量

    172686
  • 機器學習
    +關注

    關注

    66

    文章

    8176

    瀏覽量

    131002
  • LLM
    LLM
    +關注

    關注

    0

    文章

    217

    瀏覽量

    246

原文標題:MOE vs MOT 讓LLM更加有效

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    對比解碼在LLM上的應用

    為了改進LLM的推理能力,University of California聯合Meta AI實驗室提出將Contrastive Decoding應用于多種任務的LLM方法。實驗表明,所提方法能有效改進LLM的推理能力。讓我們走進
    發表于 09-21 11:37 ?414次閱讀
    對比解碼在<b class='flag-5'>LLM</b>上的應用

    低比特量化技術如何幫助LLM提升性能

    針對大語言模型 (LLM) 在部署過程中的性能需求,低比特量化技術一直是優化效果最佳的方案之一,本文將探討低比特量化技術如何幫助 LLM 提升性能,以及新版 OpenVINO 對于低比特量化技術的支持。
    的頭像 發表于 12-08 15:26 ?736次閱讀
    低比特量化技術如何幫助<b class='flag-5'>LLM</b><b class='flag-5'>提升</b>性能

    無法在MCRA中設置MOE

    無法在MCRA中設置MOE位以上來自于谷歌翻譯以下為原文 can not set MOE bit in MCRA
    發表于 05-22 12:29

    小型調度MOE自制分享!

    ,不過發現寫多了,忘得也快,還是開貼記錄一下比較好,同時也希望能得到大家的指導和監督。MOE是出于學習目的而自制的小型調度,包含事件驅動、消息機制、調試選項、各種實用軟件模塊和應用等,整體做了模塊化
    發表于 10-22 23:01

    如何提升非零等待區Flash效能

    部分 AT32 帶有非零等待區,當代碼超過零等待區后,且時鐘不高于 72MHz,讀取Flash 的效能會降低。此時不改變外圍時鐘,如何快速修改程序以提高 Flash 效能?
    發表于 10-20 08:26

    提升太陽能光伏板發電效能的研究

    提升太陽能光伏板發電效能的研究   n製造10個鏡架及安裝細平面鏡。   n在實驗室裡測試:用低功率的小型太陽能板及細平面鏡,用燈光代替太陽光   測
    發表于 09-14 16:45 ?28次下載

    STEP_MOT

    DSP之STEP_MOT教程,很好的DSP自學資料,快來學習吧。
    發表于 04-15 17:49 ?4次下載

    MMC控制策略比較分析研究

    MMC控制策略比較分析研究_李威
    發表于 01-07 18:12 ?2次下載

    關于協同空戰目標分配效能優化策略仿真_安超

    關于協同空戰目標分配效能優化策略仿真_安超
    發表于 03-19 19:04 ?0次下載

    AEK-MOT-SM81M1 AEK-MOT-SM81M1根據該L99SM81V用于汽車應用的步進電機驅動器評估板

    電子發燒友網為你提供(ti)AEK-MOT-SM81M1相關產品參數、數據手冊,更有AEK-MOT-SM81M1的引腳圖、接線圖、封裝手冊、中文資料、英文資料,AEK-MOT-SM81M1真值表,AEK-
    發表于 05-20 18:05

    Continuous Batching:解鎖LLM潛力!讓LLM推斷速度飆升23倍,降低延遲!

    本文介紹一篇 LLM 推理加速技術 相關的文章,值得讀一讀。 LLMs 在現實應用中的計算成本主要由服務成本所主導,但是傳統的批處理策略存在低效性。在這篇文章中,我們將告訴
    的頭像 發表于 10-15 20:25 ?395次閱讀
    Continuous Batching:解鎖<b class='flag-5'>LLM</b>潛力!讓<b class='flag-5'>LLM</b>推斷速度飆升23倍,降低延遲!

    基于單一LLM的情感分析方法的局限性

    LLM的發展為情感分析任務帶來的新的解決方案。有研究人員使用LLM,在上下文學習(in-context learning, ICL)的范式下,僅使用少量的訓練示例就能夠實現與監督學習策略旗鼓相當的性能表現。
    的頭像 發表于 11-23 11:14 ?476次閱讀
    基于單一<b class='flag-5'>LLM</b>的情感分析方法的局限性

    軍用濾波器的設計與優化:提升通信質量的關鍵策略!

    軍用濾波器是一種用于軍用通信系統中的電源保護裝置,主要用于過濾電網中的諧波、干擾及電磁噪聲等問題。它的作用是保護通信設備、提高通信質量、增強戰場信息交流。下面深圳市維愛普電子有限公司小編將詳細介紹軍用濾波器的設計與優化對于提升通信質量的關鍵
    的頭像 發表于 01-15 15:36 ?329次閱讀
    軍用濾波器的設計與優化:<b class='flag-5'>提升</b>通信質量的<b class='flag-5'>關鍵</b><b class='flag-5'>策略</b>!

    對標OpenAI GPT-4,MiniMax國內首個MoE大語言模型全量上線

    MoE 架構全稱專家混合(Mixture-of-Experts),是一種集成方法,其中整個問題被分為多個子任務,并將針對每個子任務訓練一組專家。MoE 模型將覆蓋不同學習者(專家)的不同輸入數據。
    的頭像 發表于 01-16 15:34 ?532次閱讀
    對標OpenAI GPT-4,MiniMax國內首個<b class='flag-5'>MoE</b>大語言模型全量上線

    基于NVIDIA Megatron Core的MOE LLM實現和訓練優化

    本文將分享阿里云人工智能平臺 PAI 團隊與 NVIDIA Megatron-Core 團隊在 MoE (Mixture of Experts) 大語言模型(LLM)實現與訓練優化上的創新工作。
    的頭像 發表于 03-22 09:50 ?285次閱讀
    基于NVIDIA Megatron Core的<b class='flag-5'>MOE</b> <b class='flag-5'>LLM</b>實現和訓練優化
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>