<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

基于Transformer的大型語言模型（LLM）的內部機制

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內部機制，以提高它們的可靠性和可解釋性。

隨著大型語言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內部工作原理變得越來越重要。更好地理解這些模型是如何做出決策的，這對改進模型和減輕其故障（如幻覺或推理錯誤）至關重要。眾所周知，最近 LLM 成功的一個重要因素是它們能夠從上下文中學習和推理。LLM 對這些上下文的學習能力通常歸功于 Transformer 架構，特別是自注意力塊的使用，其能夠仔細選擇輸入序列，進而推理出可信的下一個 token。此外，預測可能需要全局知識，如語法規則或一般事實，這些可能不會出現在上下文中，需要存儲在模型中。我們不禁會疑問，為什么基于 Transformer 的模型非常擅長使用它們的上下文來預測新的 token，這種能力是如何在訓練中產生的？帶著這些問題，來自 Meta AI 的研究者進行了深入的研究。他們通過研究合成設置下 Transformer 的學習機制，揭示了其全局和上下文學習的平衡，并將權重矩陣解釋為聯想記憶，為理解和優化 Transformer 提供了基礎。

論文地址：https://arxiv.org/abs/2306.00802 首先要了解的是在訓練過程中 Transformer 是如何發現這些能力的。為此，該研究引入了一個合成數據集，該數據集由二元語言模型生成的序列組成。然后，模型需要依靠上下文學習來對特定的二元序列進行良好的預測，而全局二元可以根據當前 token 的全局統計數據進行猜測。雖然單層的 Transformer 無法可靠地預測上下文二元，但該研究發現通過開發感應頭（induction head）機制的雙層 Transformer 取得了成功，即擁有兩個注意力頭的 circuit，其允許 Transformer 從上下文 [???, a, b,???, a] 中預測 b，并且在 Transformer 語言模型中似乎無處不在。這種感應頭（induction head）機制在 Transformer 語言模型中是普遍存在的，并且取得了成功。更進一步的，為了更好的了解上下文機制是怎樣出現在訓練過程中的，該研究在隨機初始化時凍結了一些層（包括嵌入和值矩陣）來進一步簡化模型架構。這樣一來研究重點轉移到注意力和前饋機制，同時避免了學習表征的困難。與此同時，這種簡化還為單個權重矩陣引入了一個自然模型作為聯想記憶。自然模型可以通過它們的外積存儲輸入 - 輸出或鍵 - 值對嵌入。隨機高維嵌入由于其接近正交性而特別適合這種觀點。總結而言，該研究的貢獻可概括為：

本文引入了一種新的合成設置來研究全局和上下文學習：序列遵循二元語言模型，其中一些二元在序列中變化，而另一些不會。

本文將 Transformer 的權重矩陣視為學習存儲特定嵌入對的聯想記憶，并以此為任務推導出一個簡化但更可解釋的模型。

本文對訓練動態進行了細致的實證研究：首先學習全局二元，然后以自上而下的方式學習適當的記憶，形成感應頭。

本文給出了訓練動力學的理論見解，展示了如何通過在噪聲輸入中找到信號，在種群損失上進行一些自上而下的梯度步驟來恢復所需的聯想記憶。

方法介紹 接著該研究介紹了合成數據設置，這樣能夠仔細研究感應頭機制在訓練過程中的發展以及 Transformer 如何學習利用上下文信息的。雙元數據模型：模型序列由一個通用的雙元語言模型（即馬爾可夫鏈）組成，每個序列的生成方式如下：下圖 2 可視化了測試序列上的注意力圖，這表明該模型已經學習了感應頭機制。接著該研究介紹了 Transformer 聯想記憶觀點：因為幾乎正交的嵌入，權重矩陣表現為聯想記憶，將成對的嵌入存儲為其外積的加權和。研究引入了一個具有固定隨機嵌入的簡化 Transformer 模型，將用這種想法產生對學習動力學的精確理解。此外，該研究提出了一個有用的觀點，將 Transformer 中的模型權重視為高維嵌入向量的聯想記憶。感應頭機制可以通過以下外積矩陣作為記憶來獲得，而其他所有權重則固定為隨機初始化狀態：實驗圖 3 研究了在迭代 300 次之前凍結不同層對訓練動態的影響。全局 vs 上下文學習。從圖 4（左 / 右）可以看出，當聯合訓練所有層時，全局二元統計的學習速度往往比感應頭更快，這可以從早期迭代中的 loss 和 KL 的快速下降中看出。此外，從圖 4（左）中看到，數據分布的變化會對上下文機制的學習速度產生重大影響。該研究觀察到以下情況可能會使上下文學習減慢：(i) 較少數量的觸發器 K， (ii) 僅使用少有的固定觸發器，以及 (iii) 使用隨機觸發器而不是固定觸發器。該研究還在圖 4（中間）中顯示，在訓練時將輸出 token 分布更改為二元分布會降低準確率，這表明，使用更多樣化的訓練分布可以產生具有更好泛化準確率的模型，并且只需少量的額外訓練成本。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

存儲

存儲

+關注

關注
12

文章
3913

瀏覽量
84884
語言模型

語言模型

+關注

關注
0

文章
463

瀏覽量
10151
Transformer

Transformer

+關注

關注
0

文章
130

瀏覽量
5915
LLM

LLM

+關注

關注
0

文章
219

瀏覽量
249

原文標題：基于Transformer的大模型是如何運行的？Meta揭秘內部機制！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

如何計算transformer模型的參數量

1. 前言最近，OpenAI推出的ChatGPT展現出了卓越的性能，引發了大規模語言模型(Large Language Model,LLM)的研究熱潮。大規模語言

的頭像

發表于 07-10 09:13 ?9000次閱讀

如何計算<b class='flag-5'>transformer</b><b class='flag-5'>模型</b>的參數量

了解大型語言模型 (LLM) 領域中的25個關鍵術語

1.LLM（大語言模型）大型語言模型(LLMs)是先進的人工智能系統，經過大量文本數據集的訓練，

的頭像

發表于 05-10 08:27 ?895次閱讀

了解<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b> (<b class='flag-5'>LLM</b>) 領域中的25個關鍵術語

NVIDIA 推出大型語言模型云服務以推進 AI 和數字生物學的發展

NVIDIA NeMo 大型語言模型（LLM）服務幫助開發者定制大規模語言模型；NVIDIA B

發表于 09-21 15:24 ?476次閱讀

NVIDIA 推出<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>云服務以推進 AI 和數字生物學的發展

LLM之外的性價比之選，小語言模型

? 電子發燒友網報道（文/周凱揚）大語言模型的風靡給AI應用創造了不少機會，無論是效率還是創意上，大語言模型都帶來了前所未有的表現，這些大語言

發表于 06-03 05:15 ?1760次閱讀

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

關系，從而在各種任務中表現出色。Transformer架構的推出，標志著語言模型技術的重大突破。它摒棄了傳統的遞歸方式，利用自注意力機制捕捉序列中的依賴關系。這一創新極大地提高了

發表于 05-04 23:55

【大語言模型：原理與工程實踐】大語言模型的基礎技術

之后，成為文本建模領域的熱門架構。不僅如此，它還對自然語言處理領域產生了深遠的影響?；?b class='flag-5'>Transformer的預訓練模型，如GPT系列和BERT系列，已在多種任務上取得了卓越的成績。目前的大

發表于 05-05 12:17

NVIDIA AI平臺為大型語言模型帶來巨大收益

隨著大型語言模型（ LLM ）的規模和復雜性不斷增長， NVIDIA 今天宣布更新 NeMo Megatron 框架，提供高達 30% 的訓練速度。

發表于 10-10 15:39 ?710次閱讀

大型語言模型有哪些用途？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。 AI 應用在大型語言模型的幫助下，可

發表于 02-23 19:50 ?4633次閱讀

大型語言模型有哪些用途？大型語言模型如何運作呢？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。

發表于 03-08 13:57 ?7384次閱讀

大型語言模型（LLM）的自定義訓練：包含代碼示例的詳細指南

近年來，像 GPT-4 這樣的大型語言模型（LLM）因其在自然語言理解和生成方面的驚人能力而受到廣泛關注。但是，要根據特定任務或領域定制

發表于 06-12 09:35 ?2047次閱讀

大型語言模型的應用

?? 大型語言模型（LLM）是一種深度學習算法，可以通過大規模數據集訓練來學習識別、總結、翻譯、預測和生成文本及其他內容。大語言

發表于 07-05 10:27 ?1739次閱讀

Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

今天，Meta發布了Code Llama，一款可以使用文本提示生成代碼的大型語言模型（LLM）。

發表于 08-25 09:06 ?1079次閱讀

Medusa如何加速大型語言模型（LLM）的生成？

面對推測性解碼的復雜性，研究人員推出了Medusa技術，這個框架回歸了Transformer模型的本質，減少了復雜度，增強了效率，讓每個生成階段都能快速產出結果。當將Medusa與基于樹的注意機制結合時，生成速度提高了2到3倍。

發表于 09-20 11:23 ?553次閱讀

Long-Context下LLM模型架構全面介紹

隨著ChatGPT的快速發展，基于Transformer的大型語言模型(LLM)為人工通用智能(AGI)鋪平了一條革命性的道路，并已應用于知

發表于 11-27 17:37 ?625次閱讀

大語言模型(LLM)快速理解

自2022年，ChatGPT發布之后，大語言模型（LargeLanguageModel），簡稱LLM掀起了一波狂潮。作為學習理解LLM的開始，先來整體理解一下大

發表于 06-04 08:27 ?312次閱讀

CVer
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot DepGraph：任意架構的結構化剪枝，CNN、Transformer、GNN等都適用！
Hot DDFM：首個使用擴散模型進行多模態圖像融合的方法

New Vision Mamba：速度與內存的雙重突破
New Adobe提出DMV3D：3D生成只需30秒！讓文本、圖像都動起來的新方法！

精選推薦
更多

文章

資料

帖子

RL78/F24 CANFD參考例程

瑞薩MCU小百科
12分鐘前

40 閱讀

如何移植libwebsockets

Designerhth
1小時前

68 閱讀

使用理想二極管控制器的汽車應用冗余電源拓撲

德州儀器
4小時前

256 閱讀

電力電子中的電大、電小尺寸？

英飛凌工業半導體
2天前

195 閱讀

PSpice學習筆記 - TI器件模型導入

工程師看海
1小時前

103 閱讀

基于Blockly的樹莓派可視化編程軟件

申換換
35.61 MB

2積分

6下載

weakfilescan敏感信息泄露檢測工具

張勇
0.51 MB

2積分

3下載

Dokkufy Dokku工具包

劉秀英
0.01 MB

免費

0下載

TableView截圖:類似于高德地圖路線截取tableView完整長圖的功能

遠風
0.12 MB

2積分

2下載

基于ATtiny26微控制器的電子管放大器自動化

張波
0.01 MB

2積分

3下載

為什么我的電源會出現振鈴和過熱？

久醉不醒
15小時前

98 閱讀

無線鼠標主板，可以自己照著做嗎？

angel725
1天前

344 閱讀

【Vision Board創客營連載體驗】基于Vision Board的垃圾分類

大菠蘿Alpha
1天前

172 閱讀

【Vision Board創客營連載體驗】使用 Vision Board 做一個 UVC Camera

ouxiaolong
2天前

172 閱讀

【Vision Board創客營連載體驗】TinyMaix進行手寫數字識別

ouxiaolong
2天前

483 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看