<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT結構對比

深度學習自然語言處理 ? 來源:ChallengeHub ? 2023-05-19 17:03 ? 次閱讀

1

LLama

[GPT3] 使用RMSNorm(即Root Mean square Layer Normalization)對輸入數據進行標準化,RMSNorm可以參考論文:Root mean square layer normalization。

[PaLM]使用激活函數SwiGLU, 該函數可以參考PALM論文:Glu variants improve transformer。

[GPTNeo]使用Rotary Embeddings進行位置編碼,該編碼可以參考論文 Roformer: Enhanced transformer with rotary position embedding。

使用了AdamW優化器,并使用cosine learning rate schedule,

使用因果多頭注意的有效實現來減少內存使用和運行時間。該實現可在xformers

2

Palm

采用SwiGLU激活函數:用于 MLP 中間激活,采用SwiGLU激活函數:用于 MLP 中間激活,因為與標準 ReLU、GELU 或 Swish 激活相比,《GLU Variants Improve Transformer》論文里提到:SwiGLU 已被證明可以顯著提高模型效果

提出Parallel Layers:每個 Transformer 結構中的“并行”公式:與 GPT-J-6B 中一樣,使用的是標準“序列化”公式。并行公式使大規模訓練速度提高了大約 15%。消融實驗顯示在 8B 參數量下模型效果下降很小,但在 62B 參數量下沒有模型效果下降的現象。

Multi-Query Attention:每個頭共享鍵/值的映射,即“key”和“value”被投影到 [1, h],但“query”仍被投影到形狀 [k, h],這種操作對模型質量和訓練速度沒有影響,但在自回歸解碼時間上有效節省了成本。

使用RoPE embeddings:使用的不是絕對或相對位置嵌入,而是RoPE,是因為 RoPE 嵌入在長文本上具有更好的性能 ,

采用Shared Input-Output Embeddings:輸入和輸出embedding矩陣是共享的,這個我理解類似于word2vec的輸入W和輸出W':

3

GLM

Layer Normalization的順序和殘差連接被重新排列,

用于輸出標記預測的單個線性層;

ReLU s替換為GELU s

二維位置編碼

4

BLOOM

f29ce854-f620-11ed-90ce-dac502259ad0.png

使用 ALiBi 位置嵌入,它根據鍵和查詢的距離直接衰減注意力分數。與原始的 Transformer 和 Rotary 嵌入相比,它可以帶來更流暢的訓練和更好的下游性能。ALiBi不會在詞嵌入中添加位置嵌入;相反,它會使用與其距離成比例的懲罰來偏向查詢鍵的注意力評分。

f2aa5d9a-f620-11ed-90ce-dac502259ad0.png

Embedding Layer Norm 在第一個嵌入層之后立即使用,以避免訓練不穩定。

使用了 25 萬個標記的詞匯表。使用字節級 BPE。這樣,標記化永遠不會產生未知標記

兩個全連接層:

f2b51230-f620-11ed-90ce-dac502259ad0.png

5

GPT

GPT 使用 Transformer 的 Decoder 結構,并對 Transformer Decoder 進行了一些改動,原本的 Decoder 包含了兩個 Multi-Head Attention 結構,GPT 只保留了 Mask Multi-Head Attention,如下圖所示:

f2c2d3ac-f620-11ed-90ce-dac502259ad0.png





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 電源優化器
    +關注

    關注

    0

    文章

    11

    瀏覽量

    5396
  • GPT
    GPT
    +關注

    關注

    0

    文章

    326

    瀏覽量

    14975
  • BPEKF算法
    +關注

    關注

    0

    文章

    2

    瀏覽量

    1023
  • MLP
    MLP
    +關注

    關注

    0

    文章

    56

    瀏覽量

    4108
  • LLM
    LLM
    +關注

    關注

    0

    文章

    215

    瀏覽量

    243

原文標題:LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT結構對比

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    了解大型語言模型 (LLM) 領域中的25個關鍵術語

    GPT系列、Google的Gemini、AnthropicAI的Claude、Meta的Llama模型等LLMs的發展,標志著自然語言處理領域的重大進步。2.訓練訓練
    的頭像 發表于 05-10 08:27 ?824次閱讀
    了解大型語言<b class='flag-5'>模型</b> (<b class='flag-5'>LLM</b>) 領域中的25個關鍵術語

    【飛騰派4G版免費試用】仙女姐姐的嵌入式實驗室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    一定的聯系。GPT通過大量閱讀和學習(模型訓練),了解了詞匯之間的各種關系和搭配 向GPT提問時,它會像在進行這個串聯詞語游戲一樣,從這個問題出發,尋找與問題相關的詞匯和信息。然后,GPT
    發表于 12-22 10:18

    各種大語言模型是徹底被解封了

    基礎 LLM 基本信息表,GPT-style 表示 decoder-only 的自回歸語言模型,T5-style 表示 encoder-decoder 的語言模型,
    的頭像 發表于 04-20 11:25 ?1194次閱讀

    基于LLAMA的魔改部署

    ? 借著熱點,簡單聊聊 大模型的部署方案 ,作為一個只搞過CV部署的算法工程師,在最近LLM逐漸改變生活的大背景下,猛然意識到LLM部署也是很重要的。大模型很火,而且確實有用(很多垂類
    的頭像 發表于 05-23 15:08 ?4684次閱讀
    基于<b class='flag-5'>LLAMA</b>的魔改部署

    號稱「碾壓」LLaMA的Falcon實測得分僅49.08,HuggingFace決定重寫排行榜代碼

    這是一組由 Meta 開源的大型語言模型,共有 7B、13B、33B、65B 四種版本。其中,LLaMA-13B 在大多數數據集上超過了 GPT-3(175B),LLaMA-65B 達
    的頭像 發表于 06-11 11:24 ?490次閱讀
    號稱「碾壓」<b class='flag-5'>LLaMA</b>的Falcon實測得分僅49.08,HuggingFace決定重寫排行榜代碼

    Llama 2性能如何

    在幾乎所有基準上,Llama 2 70B 的結果均與谷歌 PaLM (540B) 持平或表現更好,不過與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。
    發表于 07-23 13:00 ?1182次閱讀
    <b class='flag-5'>Llama</b> 2性能如何

    Meta推出Llama 2 免費開放商業和研究機構使用

    與所有LLM一樣,Llama 2偶爾會產生不正確或不可用的答案,但Meta介紹Llama的論文聲稱,它在學術基準方面與OpenAI的GPT 3.5不相上下,如MMLU(衡量
    的頭像 發表于 08-02 16:17 ?491次閱讀
    Meta推出<b class='flag-5'>Llama</b> 2 免費開放商業和研究機構使用

    深入理解Llama模型的源碼案例

    目前大部分開源LLM模型都是基于transformers庫來做的,它們的結構大部分都和Llama大同小異。
    發表于 08-23 11:44 ?1909次閱讀
    深入理解<b class='flag-5'>Llama</b><b class='flag-5'>模型</b>的源碼案例

    關于Llama 2的一切資源,我們都幫你整理好了

    Meta 發布的 Llama 2,是新的 SOTA 開源大型語言模型LLM)。Llama 2 代表著 LLaMA 的下一代版本,可商用。
    的頭像 發表于 08-23 15:40 ?806次閱讀

    Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

    今天,Meta發布了Code Llama,一款可以使用文本提示生成代碼的大型語言模型LLM)。
    的頭像 發表于 08-25 09:06 ?1027次閱讀
    Meta發布一款可以使用文本提示生成代碼的大型語言<b class='flag-5'>模型</b>Code <b class='flag-5'>Llama</b>

    大語言模型簡介:基于大語言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶:Bedrock對大語言模型進行介紹。大語言模型指的是具有數十億參數(B+)的預訓練語言模型(例如:
    的頭像 發表于 12-04 15:51 ?474次閱讀

    優于10倍參數模型!微軟發布Orca 2 LLM

    微軟發布 Orca 2 LLM,這是 Llama 2 的一個調優版本,性能與包含 10 倍參數的模型相當,甚至更好。
    的頭像 發表于 12-26 14:23 ?339次閱讀

    智譜AI推出新一代基座大模型GLM-4

    智譜AI近日宣布推出新一代基座大模型GLM-4。這一模型在整體性能上相較上一代實現了大幅提升,其表現已逼近GPT-4。
    的頭像 發表于 01-17 15:29 ?586次閱讀

    LLaMA 2是什么?LLaMA 2背后的研究工作

    Meta 發布的 LLaMA 2,是新的 sota 開源大型語言模型 (LLM)。LLaMA 2 代表著 LLaMA 的下一代版本,并且具有
    的頭像 發表于 02-21 16:00 ?480次閱讀

    Meta推出最強開源模型Llama 3 要挑戰GPT

    Meta推出最強開源模型Llama 3 要挑戰GPT Facebook母公司Meta Platforms(META.US)推出了開源AI大模型Ll
    的頭像 發表于 04-19 17:00 ?548次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>