<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

Nvidia 通過開源庫提升 LLM 推理性能

加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫，將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。

正如對相同硬件一輪又一輪改進的基準測試結果所證明的那樣，在從專用人工智能芯片中擠出盡可能好的性能時，軟件往往與硬件一樣重要。

“我們所做的很大一部分是硬件和軟件的結合，如今英偉達的軟件工程師比硬件工程師多，”英偉達超大規模和HPC計算業務副總裁兼總經理Ian Buck告訴《EE時報》?！斑@是回到最初的CUDA的決定的一部分，也是交付不僅是一個帶有指令集的芯片，而且是一個完整的堆棧以滿足開發者需求的動機。

他說：“這提供了一個在各個層面進行創新的機會：改變硬件架構、改變指令集、改變編譯器、改變驅動程序、改變工具、庫等等，這樣我們就可以推動整個平臺向前發展?！??！霸谶^去20年的加速計算中，這種情況已經多次出現，人工智能推理也是如此?！?/p>

TensorRT-LLM是Nvidia原始深度學習軟件庫的演變，對LLM推理進行了優化。它旨在支持 H100，但也可以應用于 A100 和 L4 部署。

“[在TensorRT-LLM中，我們]確保我們為大型語言模型提供最佳的張量核心優化，”Buck說?！斑@允許人們采用任何大型語言模型并通過TensorRT-LLM傳遞，以獲得Hopper的變壓器引擎的好處，該引擎使Hopper的FP8計算能力成為可能。而且在生產工作流程中不會有任何準確性損失。

Nvidia 的 Hopper 架構引入了變壓器引擎，這是一個軟件庫，可智能地管理訓練和推理工作負載的精度，以實現最佳性能。Buck說，變壓器引擎需要對所涉及的數學，統計數據和數據有深入的了解，并在Nvidia的編譯器上進行大量工作。它有助于在模型投入生產后保持模型的預測準確性，這可能是一個挑戰。

“你可以很容易地將32位或16位計算塞進FPGA中，但你可能會得到錯誤的答案，因為它沒有你想要的生產級精度，”巴克說?！吧钏际鞈]和謹慎地做到這一點，保持規模和偏差，在某些情況下將計算保持在只有8位的范圍內 - 為模型的某些部分保留FP16 - 這是Nvidia已經努力了一段時間的事情。

TensorRT-LLM還包括一個稱為動態批處理的新功能。

Buck解釋說，LLM工作負載，甚至是同一模型的推理工作負載，都是多種多樣的。LLM從情緒分析等更簡單的用例開始，但今天的LLM可能正在回答問題，閱讀長文本并總結它們，或者為電子郵件，文章，演示文稿等生成長文本或短文本。為LLM推理服務的數據中心也可以為許多不同的用戶提供許多不同的服務。

與現有的AI工作負載相比，現有的AI工作負載在大小上更有可能相似，因此易于批處理，Buck表示，針對同一模型的LLM查詢在大小方面可能會相差幾個數量級，從需要幾毫秒才能完成的查詢到需要幾秒鐘的查詢。模型也可以堆疊，使事情變得更加復雜。

“我們的標準批處理方法總是等待最長的查詢完成，”他說?！皥D像查詢大致花費相同的時間——從效率的角度來看，這不是問題，而且查詢可以填充，所以沒什么大不了的。

借助新的動態批處理功能，查詢完成后，查詢可以停用，軟件可以插入另一個查詢，而較長的查詢仍在進行中。這有助于提高具有不同查詢長度的 LLM 的 GPU 利用率。

“坦率地說，結果甚至讓我感到驚訝，”巴克說?！八笻opper的性能翻了一番。Hopper 是一個非常強大的 GPU，它可以在同一個 GPU 中并行處理大量查詢，但如果沒有動態批處理，如果你給它多樣化的查詢，它會等待最長的查詢，而不會被充分利用。

TensorRT-LLM是開源的，以及Nvidia的所有LLM工作，包括許多LLM模型，如GPT，Bloom和Falcon，這些模型已經通過內核融合，更快的注意力，多頭注意力等技術進行了優化。所有這些操作的內核都作為TensorRT-LLM的一部分開源。

“這使得對性能感興趣的研究人員有一個起點，使其更快，”巴克說?！拔覀兊目蛻艉陀脩艉苄蕾p，如果他們有一個想要部署的特定想法，他們可以針對他們的用例進一步優化一些東西。

創新來自學術界，也來自Meta、Microsoft和谷歌等公司。雖然 Nvidia 與他們合作優化推理，雖然優化可能會成為學術論文，但“世界沒有一個好地方去獲得這些優化，而且 Nvidia 工程師所做的工作沒有得到一個可以幫助世界其他地方的地方分享，“巴克說。

Buck補充說，TensorRT-LLM的性能提升在下一輪MLPerf推理分數中應該是顯而易見的，該分數將于明年春天到期。

審核編輯：彭菁

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4665

瀏覽量
102045
開源

開源

+關注

關注
3

文章
3026

瀏覽量
41780
語言模型

語言模型

+關注

關注
0

文章
463

瀏覽量
10130
LLM

LLM

+關注

關注
0

文章
217

瀏覽量
246

評論

相關推薦

英特爾FPGA 助力Microsoft Azure機器學習提供AI推理性能

Machine Learning SDK 相集成以供預覽?？蛻艨梢允褂?Azure 大規模部署的英特爾? FPGA（現場可編程邏輯門陣列）技術，為其模型提供行業領先的人工智能（AI） 推理性能。

的頭像

發表于 05-16 17:25 ?6231次閱讀

NVIDIA擴大AI推理性能領先優勢，首次在Arm服務器上取得佳績

最新MLPerf基準測試表明，NVIDIA已將其在AI推理性能和能效方面的高標準擴展到Arm以及x86計算機。

發表于 09-23 14:18 ?2550次閱讀

<b class='flag-5'>NVIDIA</b>擴大AI<b class='flag-5'>推理性能</b>領先優勢，首次在Arm服務器上取得佳績

NVIDIA打破AI推理性能記錄

　NVIDIA憑借A100進一步擴大了在MLPerf基準測試中的領先優勢，實現了比CPU快237倍的AI推理性能，助力企業將AI研究轉化為生產力。

發表于 10-22 14:07 ?743次閱讀

NVIDIA 在首個AI推理基準測試中大放異彩

的BERT、GNMT 和Jasper 等AI模型開源優化幫助開發者實現頂尖推理性能。NVIDIA的客戶和合作伙伴中包括有會話式AI領域的一流公司，比如Kensho、微軟、Nuance、Optum等。最后要

發表于 11-08 19:44

Arm Neoverse V1的AWS Graviton3在深度學習推理工作負載方面的作用

類型在運行兩種常見的 FP32 ML 模型時的 ML 推理性能。我們將在以后的博客中介紹量化推理 (INT8) 的性能。工作負載[MLCommons]在其[MLPerf 推理基準套件]

發表于 08-31 15:03

求助，為什么將不同的權重應用于模型會影響推理性能？

生成兩個 IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的類似模型，以不同的 fps （27fps 和 6fps）運行更多樣化的權重是否會影響 Myriad X 上的推理性能？

發表于 08-15 07:00

如何提高YOLOv4模型的推理性能？

使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進行了訓練。將權重轉換為 ONNX 文件，然后轉換為中間表示（IR）。無法確定如何獲得更好的推理性能。

發表于 08-15 06:58

英特爾FPGA為人工智能(AI)提供推理性能

Azure Machine Learning SDK 相集成以供預覽?？蛻艨梢允褂?Azure 大規模部署的英特爾 FPGA（現場可編程邏輯門陣列）技術，為其模型提供行業領先的人工智能 (AI) 推理性能。 “作為一家整體技術提供商，我們通過與 Microsoft 密切

發表于 05-20 00:10 ?2925次閱讀

NVIDIA A100 GPU推理性能237倍碾壓CPU

）的12個提交者增加了近一倍。結果顯示，今年5月NVIDIA（Nvidia）發布的安培（Ampere）架構A100 Tensor Core GPU，在云端推理的基準測試性能是最先進I

的頭像

發表于 10-23 17:40 ?4013次閱讀

<b class='flag-5'>NVIDIA</b> A100 GPU<b class='flag-5'>推理性能</b>237倍碾壓CPU

NVIDIA發布最新Orin芯片提升邊緣AI標桿

在首次參加行業 MLPerf 基準測試時，基于 NVIDIA Ampere 架構的低功耗系統級芯片 NVIDIA Orin 就創造了新的AI推理性能紀錄，并在邊緣提升每個加速器的

的頭像

發表于 04-08 10:14 ?4308次閱讀

<b class='flag-5'>NVIDIA</b>發布最新Orin芯片<b class='flag-5'>提升</b>邊緣AI標桿

周四研討會預告 | 注冊報名 NVIDIA AI Inference Day - 大模型推理線上研討會

由 CSDN 舉辦的 NVIDIA AI Inference Day - 大模型推理線上研討會，將幫助您了解 NVIDIA 開源大型語言模型（LLM

發表于 10-26 09:05 ?217次閱讀

現已公開發布！歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理

NVIDIA 于 2023 年 10 月 19 日公開發布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和優化最新的大語言模型（Large Language Models）的

發表于 10-27 20:05 ?612次閱讀

用上這個工具包，大模型推理性能加速達40倍

作者：英特爾公司沈海豪、羅嶼、孟恒宇、董波、林俊編者按：只需不到9行代碼，就能在CPU上實現出色的LLM推理性能。英特爾 ?Extension for Transformer 創新

發表于 12-01 20:40 ?731次閱讀

自然語言處理應用LLM推理優化綜述

當前，業界在將傳統優化技術引入 LLM 推理的同時，同時也在探索從大模型自回歸解碼特點出發，通過調整推理過程和引入新的模型結構來進一步提升

發表于 04-10 11:48 ?187次閱讀

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM

發表于 04-28 10:36 ?212次閱讀

科技綠洲
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot javascript的成熟分類
Hot java和javaweb和javascript的區別

New 柔性制造單元及柔性的定義
New 柔性制造主要體現在哪些方面

精選推薦
更多

文章

資料

帖子

采用144核，能效提升66%！英特爾至強6處理器震撼上市，加速數據中心升級

章鷹觀察
1天前

1115 閱讀

華為用“三個重構”為筆鋒，書寫全球數字金融大文章

腦極體
25分鐘前

99 閱讀

如何移植FFmpeg

ElfBoard
3天前

733 閱讀

基于Arm Cortex-CM85內核的RA8D1作為控制器通過MIPI DSI實現LVGL顯示

瑞薩MCU小百科
3天前

967 閱讀

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
3天前

940 閱讀

Visual C++串口通信技術與工程實踐課件下載

幸福零距離
10.9 MB

免費

0下載

西門子S7-300 PLC編程資料匯編

315879
13.5 MB

免費

0下載

ionicons開源圖標集合

江根磊
1.52 MB

免費

4下載

DCF77實驗發射機

王玉蘭
0.09 MB

免費

0下載

帶PFC電路的75 W輸出功率、高效率的單級反激式電源DI-136參考設計

陳先生
0.39 MB

免費

4下載

labview datasocket綁定點擊瀏覽選擇dstp服務器然后一直轉圈圈選不了怎么回事啊各位大佬？

jf_20760356
2天前

248 閱讀

在做基于fpga的數字示波器這個項目時，我用的是vivado平臺，遇到了顯示相關的問題。

jf_66683878
2天前

239 閱讀

求教：labview無法連接除本機外的藍牙設備

jf_00903516
1天前

289 閱讀

基于FPGA的千兆以太網設計

FPGA技術江湖
1天前

148 閱讀

I.MX6ULL-飛凌 ElfBoard ELF1板卡 - 如何在Ubuntu中編譯OpenCV庫(X86架構）

jf_25331175
4天前

919 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看