<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Transformer壓縮部署的前沿技術:RPTQ與PB-LLM

后摩智能 ? 來源:后摩智能 ? 2024-01-24 14:05 ? 次閱讀

隨著人工智能技術的迅速發展,Transformer在自然語言處理、機器翻譯、問答系統等領域取得了顯著的性能提升。然而,這些模型的部署面臨著巨大的挑戰,主要源于其龐大的模型尺寸和內存消耗。

在部署過程中,網絡壓縮是一種常用的解決方案,可以有效減小模型的體積,提高模型在移動設備等資源受限環境下的部署效率。其中,量化技術是將大模型中的浮點數參數轉換為整數,并進行存儲和計算的方法。由于Transformer的網絡參數越來越多、計算量越來越大,對于存儲和計算資源有限的邊緣設備來說,模型部署帶來了很大的挑戰。

網絡量化是一種常見的解決方案,通過將模型參數量化為整數,可以大幅度減少模型的存儲空間和計算量,從而實現在邊緣設備上高效部署Transformer。

后摩智能也在Transformer量化提出了一些領先的算法方案。在本文中,我們將重點介紹兩種針對Transformer的量化方案:

RPTQ(Reorder-based Post-training Quantization)

PB-LLM(Partially Binarized Large Language Models)

這兩種方法分別針對激活量化和權重量化,旨在實現極端低位量化,同時保持語言推理能力。

RPTQ:

量化激活通道的新思路

46c8f2a2-ba7e-11ee-8b88-92fbcf53809c.png

RPTQ(Reorder-based Post-training Quantization)是后摩智能團隊與華中科技大學等合作單位提出的一種全新的量化方法,旨在解決量化Transformer時激活通道之間的數值范圍差異問題。

相較于以往的研究,RPTQ首次將3位激活引入了LLMs,實現了顯著的內存節省,例如在量化OPT-175B模型方面,內存消耗降低了高達80%。RPTQ的關鍵思想是通過重新排列激活通道并按簇量化,從而減少通道范圍差異的影響。同時,通過操作融合,避免了顯式重新排序的操作,使得RPTQ的開銷幾乎為零。通過這種方法,RPTQ有效地解決了激活通道數值范圍差異導致的量化誤差問題。

PB-LLM:

實現極端低位量化的新突破

47152bf4-ba7e-11ee-8b88-92fbcf53809c.png

PB-LLM(Partially Binarized Large Language Models)是后摩智能團隊與伊利諾伊理工和伯克利大學等單位合作提出的另一種創新性量化方法,主要針對權重量化。目前該篇論文已被接收至ICLR 2024,ICLR 以介紹和發布人工智能、統計學和數據科學領域深度學習的尖端研究而聞名,被認為是“深度學習的頂級會議”。

相較于傳統的二值化方法,PB-LLM采用了部分二值化的策略,即將一部分顯著權重分配到高位存儲,從而在實現極端低位量化的同時,保持了Transformer的語言推理能力。通過對顯著權重的充分利用,PB-LLM取得了顯著的性能提升,為Transformer的內存消耗和計算復雜度提供了有效的解決方案。這是學術界首次探索對Transformer權重數值二值化的工作。

后摩智能的技術優勢:突破性內存計算技術驅動AI發展

后摩智能作為大算力存算一體領域的先行者,憑借著RPTQ和PB-LLM等創新性量化方法的提出,取得了在大型語言模型中實現極端低位量化的突破。同時,后摩智能團隊在內存計算領域擁有深厚的研究實力和豐富的實踐經驗,與行業內多家頂尖機構展開了廣泛的合作。這使得后摩智能得以不斷推動內存計算技術的發展,為人工智能技術的應用提供了更多創新性解決方案。

總的來說,后摩智能的RPTQ和PB-LLM等突破性量化方法為解決大型語言模型部署中的內存消耗和計算復雜度問題提供了有效的解決方案。隨著內存計算技術的不斷演進,后摩智能將繼續致力于推動人工智能技術的發展,實現萬物智能的愿景。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1779

    文章

    44388

    瀏覽量

    231218
  • 自然語言處理

    關注

    1

    文章

    510

    瀏覽量

    13195
  • LLM
    LLM
    +關注

    關注

    0

    文章

    212

    瀏覽量

    242

原文標題:后摩前沿 | Transformer 壓縮部署的前沿技術:RPTQ與PB-LLM

文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    易控智駕受邀出席第十三屆全國礦山采選前沿技術與裝備大會并發表主題演講

    4月20日,備受矚目的第十三屆全國礦山采選前沿技術與裝備大會在江西南昌盛大召開。中國工程院孫傳堯院士、沈政昌院士、潘一山院士、趙躍民院士等多位院士及行業專家出席了此次盛會。
    的頭像 發表于 04-22 09:35 ?307次閱讀

    高通在MWC 2024展示前沿技術和合作成果

    產品,還攜手全球和中國合作伙伴共同展示了在連接、AI、汽車、XR、手機、5G Advanced、6G等領域的前沿技術和合作成果。
    的頭像 發表于 02-29 09:49 ?250次閱讀

    基于Transformer模型的壓縮方法

    基于Transformer架構的大型模型在人工智能領域中發揮著日益重要的作用,特別是在自然語言處理(NLP)和計算機視覺(CV)領域。
    的頭像 發表于 02-22 16:27 ?311次閱讀
    基于<b class='flag-5'>Transformer</b>模型的<b class='flag-5'>壓縮</b>方法

    低比特量化技術如何幫助LLM提升性能

    針對大語言模型 (LLM) 在部署過程中的性能需求,低比特量化技術一直是優化效果最佳的方案之一,本文將探討低比特量化技術如何幫助 LLM
    的頭像 發表于 12-08 15:26 ?721次閱讀
    低比特量化<b class='flag-5'>技術</b>如何幫助<b class='flag-5'>LLM</b>提升性能

    情感語音識別:技術前沿與未來趨勢

    一、引言 情感語音識別是當前人工智能領域的前沿技術,它通過分析人類語音中的情感信息,實現更加智能化和個性化的人機交互。本文將探討情感語音識別技術的最新進展和未來趨勢。 二、情感語音識別的技術前沿
    的頭像 發表于 11-28 18:35 ?302次閱讀

    Long-Context下LLM模型架構全面介紹

    隨著ChatGPT的快速發展,基于Transformer的大型語言模型(LLM)為人工通用智能(AGI)鋪平了一條革命性的道路,并已應用于知識庫、人機界面和動態代理等不同領域。然而,存在一個普遍
    的頭像 發表于 11-27 17:37 ?593次閱讀
    Long-Context下<b class='flag-5'>LLM</b>模型架構全面介紹

    使用MLC-LLM支持RWKV-5推理的過程思考

    LLM的理解比較有限,從代碼實現的角度來說,RWKV的狀態和KV Cache不同,不依賴序列長度,這讓RWKV模型在各種長度下運行內存和運行速度都是趨于穩定的,所以我感覺工程價值是比基于Transformer架構比如Llama更好的,
    的頭像 發表于 11-19 15:58 ?590次閱讀
    使用MLC-<b class='flag-5'>LLM</b>支持RWKV-5推理的過程思考

    毫米波雷達在環境監測中的應用:氣象學和氣候研究的前沿技術

    隨著氣候變化和環境問題的日益突出,科學家們正在尋找更先進的技術來監測大氣和氣候變化。毫米波雷達技術正嶄露頭角,成為氣象學和氣候研究領域的一項重要工具。本文將探討毫米波雷達在環境監測中的應用,特別聚焦于其在氣象學和氣候研究方面的前沿技術
    的頭像 發表于 11-08 16:22 ?328次閱讀

    LLMTransformer是否可以直接處理視覺Token?

    多種LLM Transformer都可以提升Visual Encoding。例如用LLaMA和OPT的不同Transformer層都會有提升,而且不同層之間也會體現不同的規律。
    發表于 11-03 14:10 ?290次閱讀
    <b class='flag-5'>LLM</b>的<b class='flag-5'>Transformer</b>是否可以直接處理視覺Token?

    Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

    ?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs,比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進行推理的示例。我們將部署12B
    的頭像 發表于 11-01 17:48 ?502次閱讀
    Hugging Face <b class='flag-5'>LLM</b><b class='flag-5'>部署</b>大語言模型到亞馬遜云科技Amazon SageMaker推理示例

    MLC-LLM的編譯部署流程

    MLC-LLM部署在各種硬件平臺的需求,然后我就開始了解MLC-LLM的編譯部署流程和RWKV World模型相比于MLC-LLM已經支持的
    的頭像 發表于 09-04 09:22 ?1904次閱讀
    MLC-<b class='flag-5'>LLM</b>的編譯<b class='flag-5'>部署</b>流程

    transformer模型詳解:Transformer 模型的壓縮方法

    ?動機&背景 Transformer 模型在各種自然語言任務中取得了顯著的成果,但內存和計算資源的瓶頸阻礙了其實用化部署。低秩近似和結構化剪枝是緩解這一瓶頸的主流方法。然而,作者通過分析發現,結構化
    的頭像 發表于 07-17 10:50 ?1429次閱讀
    <b class='flag-5'>transformer</b>模型詳解:<b class='flag-5'>Transformer</b> 模型的<b class='flag-5'>壓縮</b>方法

    基于Transformer的大型語言模型(LLM)的內部機制

    本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內部機制,以提高它們的可靠性和可解釋性。 隨著大型語言模型(LLM)在使用和部署方面的不斷增加,打開黑箱并了解
    的頭像 發表于 06-25 15:08 ?1087次閱讀
    基于<b class='flag-5'>Transformer</b>的大型語言模型(<b class='flag-5'>LLM</b>)的內部機制

    一起云逛展,帶你感受英特爾開源前沿技術的魅力!

    ? ? ? 原文標題:一起云逛展,帶你感受英特爾開源前沿技術的魅力! 文章出處:【微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。
    的頭像 發表于 06-17 10:20 ?365次閱讀
    一起云逛展,帶你感受英特爾開源<b class='flag-5'>前沿技術</b>的魅力!

    多場景展現行業最新前沿技術,2023世亞數博會,世亞軟博會,推進產業數字化轉型

    多場景展現行業最新前沿技術,2023世亞數博會,世亞軟博會,推進產業數字化轉型
    的頭像 發表于 06-12 13:47 ?472次閱讀
    多場景展現行業最新<b class='flag-5'>前沿技術</b>,2023世亞數博會,世亞軟博會,推進產業數字化轉型
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>