<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

LLM底座模型：LLaMA、Palm、GLM、BLOOM、GPT結構對比

1

LLama

[GPT3] 使用RMSNorm（即Root Mean square Layer Normalization）對輸入數據進行標準化，RMSNorm可以參考論文：Root mean square layer normalization。

[PaLM]使用激活函數SwiGLU，該函數可以參考PALM論文：Glu variants improve transformer。

[GPTNeo]使用Rotary Embeddings進行位置編碼，該編碼可以參考論文 Roformer: Enhanced transformer with rotary position embedding。

使用了AdamW優化器，并使用cosine learning rate schedule，

使用因果多頭注意的有效實現來減少內存使用和運行時間。該實現可在xformers

2

Palm

采用SwiGLU激活函數：用于 MLP 中間激活，采用SwiGLU激活函數：用于 MLP 中間激活，因為與標準 ReLU、GELU 或 Swish 激活相比，《GLU Variants Improve Transformer》論文里提到：SwiGLU 已被證明可以顯著提高模型效果

提出Parallel Layers：每個 Transformer 結構中的“并行”公式：與 GPT-J-6B 中一樣，使用的是標準“序列化”公式。并行公式使大規模訓練速度提高了大約 15%。消融實驗顯示在 8B 參數量下模型效果下降很小，但在 62B 參數量下沒有模型效果下降的現象。

Multi-Query Attention：每個頭共享鍵/值的映射，即“key”和“value”被投影到 [1, h]，但“query”仍被投影到形狀 [k, h]，這種操作對模型質量和訓練速度沒有影響，但在自回歸解碼時間上有效節省了成本。

使用RoPE embeddings：使用的不是絕對或相對位置嵌入，而是RoPE，是因為 RoPE 嵌入在長文本上具有更好的性能，

采用Shared Input-Output Embeddings:輸入和輸出embedding矩陣是共享的，這個我理解類似于word2vec的輸入W和輸出W'：

3

GLM

Layer Normalization的順序和殘差連接被重新排列，

用于輸出標記預測的單個線性層；

ReLU s替換為GELU s

二維位置編碼

4

BLOOM

使用 ALiBi 位置嵌入，它根據鍵和查詢的距離直接衰減注意力分數。與原始的 Transformer 和 Rotary 嵌入相比，它可以帶來更流暢的訓練和更好的下游性能。ALiBi不會在詞嵌入中添加位置嵌入；相反，它會使用與其距離成比例的懲罰來偏向查詢鍵的注意力評分。

Embedding Layer Norm 在第一個嵌入層之后立即使用，以避免訓練不穩定。

使用了 25 萬個標記的詞匯表。使用字節級 BPE。這樣，標記化永遠不會產生未知標記

兩個全連接層：

5

GPT

GPT 使用 Transformer 的 Decoder 結構，并對 Transformer Decoder 進行了一些改動，原本的 Decoder 包含了兩個 Multi-Head Attention 結構，GPT 只保留了 Mask Multi-Head Attention，如下圖所示:

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

電源優化器

電源優化器

+關注

關注
0

文章
11

瀏覽量
5396
GPT

GPT

+關注

關注
0

文章
326

瀏覽量
14975
BPEKF算法

BPEKF算法

+關注

關注
0

文章
2

瀏覽量
1023
MLP

MLP

+關注

關注
0

文章
56

瀏覽量
4108
LLM

LLM

+關注

關注
0

文章
215

瀏覽量
243

原文標題：LLM底座模型：LLaMA、Palm、GLM、BLOOM、GPT結構對比

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

了解大型語言模型 (LLM) 領域中的25個關鍵術語

的GPT系列、Google的Gemini、AnthropicAI的Claude、Meta的Llama模型等LLMs的發展，標志著自然語言處理領域的重大進步。2.訓練訓練

的頭像

發表于 05-10 08:27 ?824次閱讀

了解大型語言<b class='flag-5'>模型</b> (<b class='flag-5'>LLM</b>) 領域中的25個關鍵術語

【飛騰派4G版免費試用】仙女姐姐的嵌入式實驗室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

一定的聯系。GPT通過大量閱讀和學習（模型訓練），了解了詞匯之間的各種關系和搭配向GPT提問時，它會像在進行這個串聯詞語游戲一樣，從這個問題出發，尋找與問題相關的詞匯和信息。然后，GPT

發表于 12-22 10:18

各種大語言模型是徹底被解封了

基礎 LLM 基本信息表，GPT-style 表示 decoder-only 的自回歸語言模型，T5-style 表示 encoder-decoder 的語言模型，

發表于 04-20 11:25 ?1194次閱讀

基于LLAMA的魔改部署

? 借著熱點，簡單聊聊大模型的部署方案，作為一個只搞過CV部署的算法工程師，在最近LLM逐漸改變生活的大背景下，猛然意識到LLM部署也是很重要的。大模型很火，而且確實有用（很多垂類

發表于 05-23 15:08 ?4684次閱讀

號稱「碾壓」LLaMA的Falcon實測得分僅49.08，HuggingFace決定重寫排行榜代碼

這是一組由 Meta 開源的大型語言模型，共有 7B、13B、33B、65B 四種版本。其中，LLaMA-13B 在大多數數據集上超過了 GPT-3（175B），LLaMA-65B 達

發表于 06-11 11:24 ?490次閱讀

Llama 2性能如何

在幾乎所有基準上，Llama 2 70B 的結果均與谷歌 PaLM (540B) 持平或表現更好，不過與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。

發表于 07-23 13:00 ?1182次閱讀

Meta推出Llama 2 免費開放商業和研究機構使用

與所有LLM一樣，Llama 2偶爾會產生不正確或不可用的答案，但Meta介紹Llama的論文聲稱，它在學術基準方面與OpenAI的GPT 3.5不相上下，如MMLU（衡量

發表于 08-02 16:17 ?491次閱讀

深入理解Llama模型的源碼案例

目前大部分開源LLM模型都是基于transformers庫來做的，它們的結構大部分都和Llama大同小異。

發表于 08-23 11:44 ?1909次閱讀

關于Llama 2的一切資源，我們都幫你整理好了

Meta 發布的 Llama 2，是新的 SOTA 開源大型語言模型（LLM）。Llama 2 代表著 LLaMA 的下一代版本，可商用。

發表于 08-23 15:40 ?806次閱讀

Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

今天，Meta發布了Code Llama，一款可以使用文本提示生成代碼的大型語言模型（LLM）。

發表于 08-25 09:06 ?1027次閱讀

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進行介紹。大語言模型指的是具有數十億參數（B+）的預訓練語言模型（例如：

發表于 12-04 15:51 ?474次閱讀

優于10倍參數模型！微軟發布Orca 2 LLM

微軟發布 Orca 2 LLM，這是 Llama 2 的一個調優版本，性能與包含 10 倍參數的模型相當，甚至更好。

發表于 12-26 14:23 ?339次閱讀

智譜AI推出新一代基座大模型GLM-4

智譜AI近日宣布推出新一代基座大模型GLM-4。這一模型在整體性能上相較上一代實現了大幅提升，其表現已逼近GPT-4。

發表于 01-17 15:29 ?586次閱讀

LLaMA 2是什么？LLaMA 2背后的研究工作

Meta 發布的 LLaMA 2，是新的 sota 開源大型語言模型 (LLM)。LLaMA 2 代表著 LLaMA 的下一代版本，并且具有

發表于 02-21 16:00 ?480次閱讀

Meta推出最強開源模型Llama 3 要挑戰GPT

Meta推出最強開源模型Llama 3 要挑戰GPT Facebook母公司Meta Platforms（META.US）推出了開源AI大模型“Ll

發表于 04-19 17:00 ?548次閱讀

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 一個給NLP領域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 什么是RAG，RAG學習和實踐經驗
New MOE與MOT：提升LLM效能的關鍵策略比較

精選推薦
更多

文章

資料

帖子

ELF 1技術貼|如何在Ubuntu中編譯OpenCV庫

ElfBoard
1天前

475 閱讀

【項目展示】基于CW32的遙控循跡小車

CW32生態社區
1天前

410 閱讀

精進嵌入式開源開發技能，RT-Thread?SMP培訓即將來襲！

RT-Thread官方賬號
2天前

126 閱讀

手把手教你如何在Purple Pi OH上開發板安裝Opencv

觸覺智能
2天前

222 閱讀

鴻蒙開發接口媒體：【@ohos.multimedia.image (圖片處理)】

jf_46214456
1天前

524 閱讀

穩壓電源的散熱設計

fejlkel
771

免費

48下載

智能家電開發方案要領與電路圖集錦

盧國藝
2522KB

4積分

400下載

基于點擊事件和彈出列表文本組件的向上滑動面板

姚小熊27
0.10 MB

免費

1下載

Yii2 ExtJs5 RBAC網站管理擴展工具

劉杰
0.76 MB

免費

1下載

Haven將手機變成個人監控系統

發生的方式
11.40 MB

免費

2下載

有關PL端利用AXI總線控制PS端DDR進行讀寫（從機wready信號一直不拉高）

jf_86841278
2天前

684 閱讀

LDO電源模塊如何快速設計布局

鄒夢雨
2天前

512 閱讀

全志H616（BIGTREETECH CB1）和博通BCM2711（樹莓派4B）CPU對比測試

corkia
2天前

485 閱讀

請教一個三極管推Pmos管的電路問題

雪舞風華
2天前

879 閱讀

用全志XR806開發板輕松連上華為云實現物聯網

corkia
2天前

479 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看