<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Nvidia 通過開源庫提升 LLM 推理性能

科技綠洲 ? 來源:eetimes ? 作者:eetimes ? 2023-10-23 16:10 ? 次閱讀

加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。

正如對相同硬件一輪又一輪改進的基準測試結果所證明的那樣,在從專用人工智能芯片中擠出盡可能好的性能時,軟件往往與硬件一樣重要。

“我們所做的很大一部分是硬件和軟件的結合,如今英偉達的軟件工程師比硬件工程師多,”英偉達超大規模和HPC計算業務副總裁兼總經理Ian Buck告訴《EE時報》?!斑@是回到最初的CUDA的決定的一部分,也是交付不僅是一個帶有指令集的芯片,而且是一個完整的堆棧以滿足開發者需求的動機。

他說:“這提供了一個在各個層面進行創新的機會:改變硬件架構、改變指令集、改變編譯器、改變驅動程序、改變工具、庫等等,這樣我們就可以推動整個平臺向前發展?!??!霸谶^去20年的加速計算中,這種情況已經多次出現,人工智能推理也是如此?!?/p>

TensorRT-LLM是Nvidia原始深度學習軟件庫的演變,對LLM推理進行了優化。它旨在支持 H100,但也可以應用于 A100 和 L4 部署。

“[在TensorRT-LLM中,我們]確保我們為大型語言模型提供最佳的張量核心優化,”Buck說?!斑@允許人們采用任何大型語言模型并通過TensorRT-LLM傳遞,以獲得Hopper的變壓器引擎的好處,該引擎使Hopper的FP8計算能力成為可能。而且在生產工作流程中不會有任何準確性損失。

Nvidia 的 Hopper 架構引入了變壓器引擎,這是一個軟件庫,可智能地管理訓練和推理工作負載的精度,以實現最佳性能。Buck說,變壓器引擎需要對所涉及的數學,統計數據和數據有深入的了解,并在Nvidia的編譯器上進行大量工作。它有助于在模型投入生產后保持模型的預測準確性,這可能是一個挑戰。

“你可以很容易地將32位或16位計算塞進FPGA中,但你可能會得到錯誤的答案,因為它沒有你想要的生產級精度,”巴克說?!吧钏际鞈]和謹慎地做到這一點,保持規模和偏差,在某些情況下將計算保持在只有8位的范圍內 - 為模型的某些部分保留FP16 - 這是Nvidia已經努力了一段時間的事情。

TensorRT-LLM還包括一個稱為動態批處理的新功能。

Buck解釋說,LLM工作負載,甚至是同一模型的推理工作負載,都是多種多樣的。LLM從情緒分析等更簡單的用例開始,但今天的LLM可能正在回答問題,閱讀長文本并總結它們,或者為電子郵件,文章,演示文稿等生成長文本或短文本。為LLM推理服務的數據中心也可以為許多不同的用戶提供許多不同的服務。

與現有的AI工作負載相比,現有的AI工作負載在大小上更有可能相似,因此易于批處理,Buck表示,針對同一模型的LLM查詢在大小方面可能會相差幾個數量級,從需要幾毫秒才能完成的查詢到需要幾秒鐘的查詢。模型也可以堆疊,使事情變得更加復雜。

“我們的標準批處理方法總是等待最長的查詢完成,”他說?!皥D像查詢大致花費相同的時間——從效率的角度來看,這不是問題,而且查詢可以填充,所以沒什么大不了的。

借助新的動態批處理功能,查詢完成后,查詢可以停用,軟件可以插入另一個查詢,而較長的查詢仍在進行中。這有助于提高具有不同查詢長度的 LLM 的 GPU 利用率。

“坦率地說,結果甚至讓我感到驚訝,”巴克說?!八笻opper的性能翻了一番。Hopper 是一個非常強大的 GPU,它可以在同一個 GPU 中并行處理大量查詢,但如果沒有動態批處理,如果你給它多樣化的查詢,它會等待最長的查詢,而不會被充分利用。

TensorRT-LLM是開源的,以及Nvidia的所有LLM工作,包括許多LLM模型,如GPT,Bloom和Falcon,這些模型已經通過內核融合,更快的注意力,多頭注意力等技術進行了優化。所有這些操作的內核都作為TensorRT-LLM的一部分開源。

“這使得對性能感興趣的研究人員有一個起點,使其更快,”巴克說?!拔覀兊目蛻艉陀脩艉苄蕾p,如果他們有一個想要部署的特定想法,他們可以針對他們的用例進一步優化一些東西。

創新來自學術界,也來自Meta、Microsoft和谷歌等公司。雖然 Nvidia 與他們合作優化推理,雖然優化可能會成為學術論文,但“世界沒有一個好地方去獲得這些優化,而且 Nvidia 工程師所做的工作沒有得到一個可以幫助世界其他地方的地方分享,“巴克說。

Buck補充說,TensorRT-LLM的性能提升在下一輪MLPerf推理分數中應該是顯而易見的,該分數將于明年春天到期。

審核編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4665

    瀏覽量

    102045
  • 開源
    +關注

    關注

    3

    文章

    3026

    瀏覽量

    41780
  • 語言模型
    +關注

    關注

    0

    文章

    463

    瀏覽量

    10130
  • LLM
    LLM
    +關注

    關注

    0

    文章

    217

    瀏覽量

    246
收藏 人收藏

    評論

    相關推薦

    英特爾FPGA 助力Microsoft Azure機器學習提供AI推理性能

    Machine Learning SDK 相集成以供預覽??蛻艨梢允褂?Azure 大規模部署的英特爾? FPGA(現場可編程邏輯門陣列)技術,為其模型提供行業領先的人工智能 (AI) 推理性能。
    的頭像 發表于 05-16 17:25 ?6231次閱讀

    NVIDIA擴大AI推理性能領先優勢,首次在Arm服務器上取得佳績

    最新MLPerf基準測試表明,NVIDIA已將其在AI推理性能和能效方面的高標準擴展到Arm以及x86計算機。
    發表于 09-23 14:18 ?2550次閱讀
    <b class='flag-5'>NVIDIA</b>擴大AI<b class='flag-5'>推理性能</b>領先優勢,首次在Arm服務器上取得佳績

    NVIDIA打破AI推理性能記錄

     NVIDIA憑借A100進一步擴大了在MLPerf基準測試中的領先優勢,實現了比CPU快237倍的AI推理性能,助力企業將AI研究轉化為生產力。
    發表于 10-22 14:07 ?743次閱讀

    NVIDIA 在首個AI推理基準測試中大放異彩

    的BERT、GNMT 和Jasper 等AI模型開源優化幫助開發者實現頂尖推理性能。NVIDIA的客戶和合作伙伴中包括有會話式AI領域的一流公司,比如Kensho、微軟、Nuance、Optum等。最后要
    發表于 11-08 19:44

    Arm Neoverse V1的AWS Graviton3在深度學習推理工作負載方面的作用

    類型在運行兩種常見的 FP32 ML 模型時的 ML 推理性能。我們將在以后的博客中介紹量化推理 (INT8) 的性能。工作負載[MLCommons]在其[MLPerf 推理基準套件]
    發表于 08-31 15:03

    求助,為什么將不同的權重應用于模型會影響推理性能?

    生成兩個 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的類似模型,以不同的 fps (27fps 和 6fps) 運行 更多樣化的權重是否會影響 Myriad X 上的推理性能?
    發表于 08-15 07:00

    如何提高YOLOv4模型的推理性能?

    使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進行了訓練。 將 權重轉換為 ONNX 文件,然后轉換為中間表示 (IR)。 無法確定如何獲得更好的推理性能。
    發表于 08-15 06:58

    英特爾FPGA為人工智能(AI)提供推理性能

    Azure Machine Learning SDK 相集成以供預覽??蛻艨梢允褂?Azure 大規模部署的英特爾 FPGA(現場可編程邏輯門陣列)技術,為其模型提供行業領先的人工智能 (AI) 推理性能。 “作為一家整體技術提供商,我們通過與 Microsoft 密切
    發表于 05-20 00:10 ?2925次閱讀

    NVIDIA A100 GPU推理性能237倍碾壓CPU

    )的12個提交者增加了近一倍。 結果顯示,今年5月NVIDIANvidia)發布的安培(Ampere)架構A100 Tensor Core GPU,在云端推理的基準測試性能是最先進I
    的頭像 發表于 10-23 17:40 ?4013次閱讀
    <b class='flag-5'>NVIDIA</b> A100 GPU<b class='flag-5'>推理性能</b>237倍碾壓CPU

    NVIDIA發布最新Orin芯片提升邊緣AI標桿

    在首次參加行業 MLPerf 基準測試時,基于 NVIDIA Ampere 架構的低功耗系統級芯片 NVIDIA Orin 就創造了新的AI推理性能紀錄,并在邊緣提升每個加速器的
    的頭像 發表于 04-08 10:14 ?4308次閱讀
    <b class='flag-5'>NVIDIA</b>發布最新Orin芯片<b class='flag-5'>提升</b>邊緣AI標桿

    周四研討會預告 | 注冊報名 NVIDIA AI Inference Day - 大模型推理線上研討會

    由 CSDN 舉辦的 NVIDIA AI Inference Day - 大模型推理線上研討會,將幫助您了解 NVIDIA 開源大型語言模型(LLM
    的頭像 發表于 10-26 09:05 ?217次閱讀

    現已公開發布!歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理

    NVIDIA 于 2023 年 10 月 19 日公開發布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和優化最新的大語言模型(Large Language Models)的
    的頭像 發表于 10-27 20:05 ?612次閱讀
    現已公開發布!歡迎使用 <b class='flag-5'>NVIDIA</b> TensorRT-<b class='flag-5'>LLM</b> 優化大語言模型<b class='flag-5'>推理</b>

    用上這個工具包,大模型推理性能加速達40倍

    作者: 英特爾公司 沈海豪、羅嶼、孟恒宇、董波、林俊 編者按: 只需不到9行代碼, 就能在CPU上實現出色的LLM推理性能。 英特爾 ?Extension for Transformer 創新
    的頭像 發表于 12-01 20:40 ?731次閱讀
    用上這個工具包,大模型<b class='flag-5'>推理性能</b>加速達40倍

    自然語言處理應用LLM推理優化綜述

    當前,業界在將傳統優化技術引入 LLM 推理的同時,同時也在探索從大模型自回歸解碼特點出發,通過調整推理過程和引入新的模型結構來進一步提升
    發表于 04-10 11:48 ?187次閱讀
    自然語言處理應用<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>優化綜述

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM
    的頭像 發表于 04-28 10:36 ?212次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>