<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于Transformer的大型語言模型(LLM)的內部機制

CVer ? 來源:CVer ? 2023-06-25 15:08 ? 次閱讀

本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內部機制,以提高它們的可靠性和可解釋性。

隨著大型語言模型(LLM)在使用和部署方面的不斷增加,打開黑箱并了解它們的內部工作原理變得越來越重要。更好地理解這些模型是如何做出決策的,這對改進模型和減輕其故障(如幻覺或推理錯誤)至關重要。 眾所周知,最近 LLM 成功的一個重要因素是它們能夠從上下文中學習和推理。LLM 對這些上下文的學習能力通常歸功于 Transformer 架構,特別是自注意力塊的使用,其能夠仔細選擇輸入序列,進而推理出可信的下一個 token。此外,預測可能需要全局知識,如語法規則或一般事實,這些可能不會出現在上下文中,需要存儲在模型中。 我們不禁會疑問,為什么基于 Transformer 的模型非常擅長使用它們的上下文來預測新的 token,這種能力是如何在訓練中產生的?帶著這些問題,來自 Meta AI 的研究者進行了深入的研究。他們通過研究合成設置下 Transformer 的學習機制,揭示了其全局和上下文學習的平衡,并將權重矩陣解釋為聯想記憶,為理解和優化 Transformer 提供了基礎。

論文地址:https://arxiv.org/abs/2306.00802 首先要了解的是在訓練過程中 Transformer 是如何發現這些能力的。為此,該研究引入了一個合成數據集,該數據集由二元語言模型生成的序列組成。然后,模型需要依靠上下文學習來對特定的二元序列進行良好的預測,而全局二元可以根據當前 token 的全局統計數據進行猜測。雖然單層的 Transformer 無法可靠地預測上下文二元,但該研究發現通過開發感應頭(induction head)機制的雙層 Transformer 取得了成功,即擁有兩個注意力頭的 circuit,其允許 Transformer 從上下文 [???, a, b,???, a] 中預測 b,并且在 Transformer 語言模型中似乎無處不在。這種感應頭(induction head)機制在 Transformer 語言模型中是普遍存在的,并且取得了成功。 更進一步的,為了更好的了解上下文機制是怎樣出現在訓練過程中的,該研究在隨機初始化時凍結了一些層(包括嵌入和值矩陣)來進一步簡化模型架構。這樣一來研究重點轉移到注意力和前饋機制,同時避免了學習表征的困難。與此同時,這種簡化還為單個權重矩陣引入了一個自然模型作為聯想記憶。自然模型可以通過它們的外積存儲輸入 - 輸出或鍵 - 值對嵌入。隨機高維嵌入由于其接近正交性而特別適合這種觀點。 總結而言,該研究的貢獻可概括為:

本文引入了一種新的合成設置來研究全局和上下文學習:序列遵循二元語言模型,其中一些二元在序列中變化,而另一些不會。

本文將 Transformer 的權重矩陣視為學習存儲特定嵌入對的聯想記憶,并以此為任務推導出一個簡化但更可解釋的模型。

本文對訓練動態進行了細致的實證研究:首先學習全局二元,然后以自上而下的方式學習適當的記憶,形成感應頭。

本文給出了訓練動力學的理論見解,展示了如何通過在噪聲輸入中找到信號,在種群損失上進行一些自上而下的梯度步驟來恢復所需的聯想記憶。

方法介紹 接著該研究介紹了合成數據設置,這樣能夠仔細研究感應頭機制在訓練過程中的發展以及 Transformer 如何學習利用上下文信息的。 雙元數據模型:模型序列由一個通用的雙元語言模型(即馬爾可夫鏈)組成,每個序列的生成方式如下: 7da06c44-11df-11ee-962d-dac502259ad0.png 下圖 2 可視化了測試序列上的注意力圖,這表明該模型已經學習了感應頭機制。 7dc1ac1a-11df-11ee-962d-dac502259ad0.png 接著該研究介紹了 Transformer 聯想記憶觀點:因為幾乎正交的嵌入,權重矩陣表現為聯想記憶,將成對的嵌入存儲為其外積的加權和。研究引入了一個具有固定隨機嵌入的簡化 Transformer 模型,將用這種想法產生對學習動力學的精確理解。 此外,該研究提出了一個有用的觀點,將 Transformer 中的模型權重視為高維嵌入向量的聯想記憶。感應頭機制可以通過以下外積矩陣作為記憶來獲得,而其他所有權重則固定為隨機初始化狀態: 7de51452-11df-11ee-962d-dac502259ad0.png實驗 圖 3 研究了在迭代 300 次之前凍結不同層對訓練動態的影響。 7e032e24-11df-11ee-962d-dac502259ad0.png 全局 vs 上下文學習。從圖 4(左 / 右)可以看出,當聯合訓練所有層時,全局二元統計的學習速度往往比感應頭更快,這可以從早期迭代中的 loss 和 KL 的快速下降中看出。 此外,從圖 4(左)中看到,數據分布的變化會對上下文機制的學習速度產生重大影響。該研究觀察到以下情況可能會使上下文學習減慢:(i) 較少數量的觸發器 K, (ii) 僅使用少有的固定觸發器,以及 (iii) 使用隨機觸發器而不是固定觸發器。 該研究還在圖 4(中間)中顯示,在訓練時將輸出 token 分布更改為二元分布會降低準確率,這表明,使用更多樣化的訓練分布可以產生具有更好泛化準確率的模型,并且只需少量的額外訓練成本。 7e336954-11df-11ee-962d-dac502259ad0.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存儲
    +關注

    關注

    12

    文章

    3913

    瀏覽量

    84884
  • 語言模型
    +關注

    關注

    0

    文章

    463

    瀏覽量

    10151
  • Transformer
    +關注

    關注

    0

    文章

    130

    瀏覽量

    5915
  • LLM
    LLM
    +關注

    關注

    0

    文章

    219

    瀏覽量

    249

原文標題:基于Transformer的大模型是如何運行的?Meta揭秘內部機制!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何計算transformer模型的參數量

    1. 前言 最近,OpenAI推出的ChatGPT展現出了卓越的性能,引發了大規模語言模型(Large Language Model,LLM)的研究熱潮。大規模語言
    的頭像 發表于 07-10 09:13 ?9000次閱讀
    如何計算<b class='flag-5'>transformer</b><b class='flag-5'>模型</b>的參數量

    了解大型語言模型 (LLM) 領域中的25個關鍵術語

    1.LLM(大語言模型大型語言模型(LLMs)是先進的人工智能系統,經過大量文本數據集的訓練,
    的頭像 發表于 05-10 08:27 ?895次閱讀
    了解<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b> (<b class='flag-5'>LLM</b>) 領域中的25個關鍵術語

    NVIDIA 推出大型語言模型云服務以推進 AI 和數字生物學的發展

    NVIDIA NeMo 大型語言模型LLM)服務幫助開發者定制大規模語言模型;NVIDIA B
    發表于 09-21 15:24 ?476次閱讀
    NVIDIA 推出<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>云服務以推進 AI 和數字生物學的發展

    LLM之外的性價比之選,小語言模型

    ? 電子發燒友網報道(文/周凱揚)大語言模型的風靡給AI應用創造了不少機會,無論是效率還是創意上,大語言模型都帶來了前所未有的表現,這些大語言
    的頭像 發表于 06-03 05:15 ?1760次閱讀
    <b class='flag-5'>LLM</b>之外的性價比之選,小<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    關系,從而在各種任務中表現出色。Transformer架構的推出,標志著語言模型技術的重大突破。它摒棄了傳統的遞歸方式,利用自注意力機制捕捉序列中的依賴關系。這一創新極大地提高了
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    之后,成為文本建模領域的熱門架構。不僅如此,它還對自然語言處理領域產生了深遠的影響?;?b class='flag-5'>Transformer的預訓練模型,如GPT系列和BERT系列,已在多種任務上取得了卓越的成績。目前的
    發表于 05-05 12:17

    NVIDIA AI平臺為大型語言模型帶來巨大收益

    隨著大型語言模型LLM )的規模和復雜性不斷增長, NVIDIA 今天宣布更新 NeMo Megatron 框架,提供高達 30% 的訓練速度。
    的頭像 發表于 10-10 15:39 ?710次閱讀
    NVIDIA AI平臺為<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>帶來巨大收益

    大型語言模型有哪些用途?

    大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。 AI 應用在大型語言模型的幫助下,可
    的頭像 發表于 02-23 19:50 ?4633次閱讀

    大型語言模型有哪些用途?大型語言模型如何運作呢?

    大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。
    的頭像 發表于 03-08 13:57 ?7384次閱讀

    大型語言模型LLM)的自定義訓練:包含代碼示例的詳細指南

    近年來,像 GPT-4 這樣的大型語言模型LLM) 因其在自然語言理解和生成方面的驚人能力而受到廣泛關注。但是,要根據特定任務或領域定制
    發表于 06-12 09:35 ?2047次閱讀

    大型語言模型的應用

    ?? 大型語言模型LLM) 是一種深度學習算法,可以通過大規模數據集訓練來學習識別、總結、翻譯、預測和生成文本及其他內容。大語言
    的頭像 發表于 07-05 10:27 ?1739次閱讀

    Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

    今天,Meta發布了Code Llama,一款可以使用文本提示生成代碼的大型語言模型LLM)。
    的頭像 發表于 08-25 09:06 ?1079次閱讀
    Meta發布一款可以使用文本提示生成代碼的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>Code Llama

    Medusa如何加速大型語言模型LLM)的生成?

    面對推測性解碼的復雜性,研究人員推出了Medusa技術,這個框架回歸了Transformer模型的本質,減少了復雜度,增強了效率,讓每個生成階段都能快速產出結果。當將Medusa與基于樹的注意機制結合時,生成速度提高了2到3倍。
    發表于 09-20 11:23 ?553次閱讀
    Medusa如何加速<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)的生成?

    Long-Context下LLM模型架構全面介紹

    隨著ChatGPT的快速發展,基于Transformer大型語言模型(LLM)為人工通用智能(AGI)鋪平了一條革命性的道路,并已應用于知
    的頭像 發表于 11-27 17:37 ?625次閱讀
    Long-Context下<b class='flag-5'>LLM</b><b class='flag-5'>模型</b>架構全面介紹

    語言模型(LLM)快速理解

    自2022年,ChatGPT發布之后,大語言模型(LargeLanguageModel),簡稱LLM掀起了一波狂潮。作為學習理解LLM的開始,先來整體理解一下大
    的頭像 發表于 06-04 08:27 ?312次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)快速理解
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>