<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

NVIDIA GPU架構下的FP8訓練與推理

本文聚焦 NVIDIA FP8 訓練與推理的實踐應用。

FP8 訓練利用 E5M2/E4M3 格式，具備與 FP16 相當的動態范圍，適用于反向傳播與前向傳播。FP8 訓練在相同加速平臺上的峰值性能顯著超越 FP16/BF16，并且模型參數越大，訓練加速效果越好，且其與 16-bits 訓練在收斂性和下游任務表現上無顯著差異。FP8 訓練通過 NVIDIA Transformer Engine 實現，僅需少量代碼改動，并且支持 FlashAttention、混合精度訓練遷移等。支持 FP8 的框架包括 NVIDIA Megatron-LM、NeMo、DeepSpeed、飛槳 PaddlePaddle、Colossal AI、HuggingFace 等。

FP8 推理通過 NVIDIA TensorRT-LLM 實現，權重輸入先轉換為 FP8，并融合操作以提高內存吞吐，但部分輸出仍需 FP16 進行 reduction。NVIDIA 技術團隊正研究直接 FP8 reduction 以實現端到端的加速優化。

FP8 基本原理、采用理由和收益

圖 1. 四種數據類型

首先詳解 FP8 的概念，圖 1 展示了 FP8、FP16、FP32 與 BF16 四種數據類型。業界曾長期依賴 FP16 與 FP32 訓練，直至 GPT 橫空出世，BF16 因能避免計算過程中的數值溢出問題而受到青睞。

近年來，NVIDIA 技術團隊在 FP8 領域持續投入，發布了多篇論文，并在歷屆 GTC 大會也分享了 FP8 在計算機視覺（CV）、自然語言處理（NLP）以及大模型訓練中的實際效果。

圖 2. E4M3 與 E5M2 兩種數據格式

圖 2 表格展示了 E4M3 與 E5M2 兩種數據格式。其中可以看到，FP8 精度的 E5M2 數據格式的數部分，與 FP16 的保持一致。這意味著 FP8 精度的 E5M2 數據格式具備與 FP16 相當的動態范圍，因此該數據格式常被用在訓練的反向傳播階段。而 E4M3 是在前向傳播中采用的 FP8 格式。圖 2 詳盡展示了 FP8 格式下各類特殊數值的表示方式。

當我們考慮浮點數的數據精度會不會損失的時候，這個浮點數往往會落入圖 2 下半部分里粉色的 subnormal 區間。圖 2 下半部分是以 FP32 舉例的，讀者可根據圖 2 表格看到 FP8 的 subnormal 區間，因此我們在訓練模型時可進行理論分析，探究數值精度是否影響模型效果。

表 1. 援引的測試數據[1]僅供技術參考和討論

表 1 旨在闡述采用 FP8 的原因，以在 NVIDIA H100 Tensor Core GPU 上為例，單位是 TFLOPS，相較 FP16 和 BF16，FP8 的峰值性能能夠實現翻倍。并且此表展示的基準測試數據是在 2023 年采集的，當前性能提升更為顯著。

圖 3. 測試數據僅供技術參考和討論

圖 3 左側圖表對比了不同參數規模的 GPT-3 模型在 H100 上做 FP8 訓練，以及在 NVIDIA A100 Tensor Core GPU 上做 FP16/BF16 訓練的吞吐加速比。這個加速效果隨模型規模正向變化，比如參數規模為 5B 至 40B，它的加速效果約為 2 到 3 倍。

右側表格則進一步對比了不同參數規模的模型同在 H100 GPU 上，使用 FP8 訓練相對 BF16 的性能加速比。就 126M 至 175B 參數的模型而言，除了個別特殊任務外，FP8 訓練的加速效果同樣隨模型規模增大而提升。換言之，模型規模越大，采用 FP8 訓練的收益越大。

圖 4. 援引的測試數據[2]僅供技術參考和討論

圖 4 援引的是行業測試數據。左側圖表顯示的是對 GEMM 單一計算任務的加速對比。在 H100 GPU 上 FP8 訓練相對于 A100 GPU 上 BF16 訓練的峰值性能加速比約為 6 倍，而在 GEMM 任務測試中接近 5 倍。并且鑒于底層 CUDA 內核持續優化，未來性能將進一步提升。

右側表格則展示了在不同規模的 GPT 模型做 FP8 訓練的實際加速效果，模型參數規模分別為 1B、3B、7B 和 30B。該圖表分別對比了在 H100 GPU 與 A100 GPU 上做 BF16 和 FP8 訓練的加速效果?？梢钥吹?BF16 訓練對 1B、3B 模型的加速比約為 2.2 倍，而 FP8 訓練的加速比分別達 2.7 倍、2.8 倍，對 7B、30B 模型加速比則達到 3 倍和 3.3 倍，說明 FP8 訓練的性能優化效果更加顯著。

FP8 的訓練性能和收斂性

圖 5. 測試數據僅供技術參考和討論

圖 5 展示了 FP8 訓練的性能與收斂性。右圖顯示在不同規模的 GPT 模型上使用 BF16 與 FP8 進行訓練的 loss （損失值）曲線，并以困惑度 PPL（Perplexity）為度量指標。同色曲線代表相同模型規模，實線代表 BF16，虛線為 FP8。觀察 PPL 曲線走勢，可見隨著訓練進程，FP8 與 BF16 的曲線幾乎完全吻合，表明兩者收斂性并無顯著差異。

左側表格則匯總了歷屆 GTC 大會中分享的下游任務數據，包括 PPL 指標及 FP8 與 16-bits 訓練的對比，涵蓋 NLP 模型和 CV 模型。結果顯示，使用 FP8 訓練的模型與 16-bits 訓練的模型在各項指標上的數值差異甚微，證實了 FP8 訓練能達到同等效果。

圖 6. 援引的測試數據[3]僅供技術參考和討論

圖 6 展示了我們在本地測試的一個 1.3B 參數模型的實際訓練結果，共進行了約 2.5 萬步訓練。結果顯示，該模型的 loss 曲線與預期基本相符，僅有微?。泓c零幾）的差異。

這里列舉在 FP8 訓練中實際采用的配置?？梢钥吹绞褂?FP8 訓練時對代碼的改動極少，只需添加幾行代碼即可，后文將詳細解釋這些代碼的具體含義。

--fp8-hybrid
--transformer-impl transformer_engine
--fp8-amax-history-len 1024
--fp8-amax-compute-algo max

此外，我們在實際訓練中的常見問題解答如下：

目前廣泛采用 BF16 進行混合訓練，轉用 FP8 是否需要自行編譯 kernel 或進行復雜的數據類型轉換？ 答案是否，建議使用 NVIDIA Transformer Engine 預置的多種 FP8 kernel（Linear、MLP、LayerNorm 等基礎算子及基于這些算子的fused kernel），無需開發，直接調用即可。

如果沒使用 NVIDIA Megatron 或 DeepSpeed 框架，而是采用自定義框架，可以無縫使用 Transformer Engine 進行 FP8 訓練嗎？ 答案是可以。只需在 PyTorch 上使用 Transformer Engine 提供的 fp8_autocast 包裝器（wrapper），即可在原生 PyTorch 環境中開展 FP8 訓練。此 wrapper 主要用于提供一系列 FP8-safe 的算子，自動將高精度的輸入數據轉換為 FP8，簡化了低精度訓練的實現過程。在上述過程中，需要對每個 tensor 更新其縮放因子 (scale)，為此我們引入 amax（maximums of absolute value）的概念，fp8_autocast wrapper 會更新 amax 值。此外，根據 amax 值，該 wrapper 還會自動計算每個 tensor 的實際 scale 值。

Transformer Engine 除提供 FP8 layer-wise 模塊和自動數據類型轉換外，還有什么功能？ 答案是它還支持 FlashAttention 機制。這意味著 Transformer Engine 也能夠提升傳統 BF16、FP16 訓練的性能。

對于已使用 BF16 訓練的存量模型，能夠使用 FP8 做繼續訓練嗎？ 答案是可以。實踐證明，BF16 格式的 checkpoint 可以直接導入進行 FP8 繼續訓練；反之亦然，即在預訓練階段使用了 FP8，那么在 SFT（supervised Fine-Tuning）階段，出于對模型精度或數據健壯性的考慮，仍舊可以從 FP8 無縫切換到 BF16 做繼續訓練。Transformer Engine 全面支持此類精度遷移的操作。

圖 7. 解讀 FP8 訓練中新增的五行代碼

圖 7 旨在解讀前文提及的 FP8 訓練中新增的五行代碼，代碼的功能是用于計算當前 tensor 的 scale 值。我們采用名為 delayed scaling 策略，即當前 tensor 的 scale 值并非基于實時計算得出，而是依據其歷史數據，例如基于前幾個迭代周期的值計算得出。計算方法可選擇取 max 值，也可采用最近時間的值。

以該圖展示的 amax history 說明，針對當前 tensor，系統可存儲 1,024 個 amax 值，并從中選取最大值作為當前 tensor 的 amax 值。隨后，根據一個簡化的 recipe 算法即可計算出 scale 值。

實際應用中，Hopper GPU 上 FP8 訓練相較于 BF16 的加速效果為 30%-40%，低于 FP8 在單一 GEMM 計算任務中理論可達的 5 倍加速比。為解釋此現象，本文借助圖 8 進行闡述。

使用 Transformer Engine 訓練 FP8 LLM

圖 8. FP8 訓練在 Transformer Engine 上的完整流程

圖 8 顯示了訓練中前向與反向計算的精度差異：紅線表示高精度（BF16、FP32），綠線為 FP8。在整個訓練期間，圖片上半部分的權重（weight）及下半部分的梯度（gradient）始終以高精度存儲。僅在執行 linear 操作時，才對當前 tensor 進行數據格式轉換（cast），轉為 FP8 精度計算，但 linear 輸出仍為高精度。因此，后續 bias 計算等均在高精度上進行。

圖示表明，實際訓練中僅 GEMM 計算采用 FP8，其余計算保持高精度。盡管業界存在對非線性操作也采用 FP8 計算和存儲的激進策略，并在部分下游任務中表現良好，但主流方案依然遵循上述精細化的精度分配原則。

目前支持 FP8 訓練的分布式訓練框架與工具包括 NVIDIA Megatron-LM、NeMo 框架，DeepSpeed、飛槳 PaddlePaddle、Colossal AI、HuggingFace 等，也就是說這些框架均已集成了 Transformer Engine，可選用上述任一框架進行大模型 FP8 訓練。

圖 9. 不同數據精度

集合Transformer Engine 的訓練測試結果對比

圖 9 總結了上述重點，通過對比三類測試情況：綠線代表僅使用 BF16 訓練，橘線表示 BF16 訓練結合 Transformer Engine（即在啟用 FlashAttention 的同時，使用 Transformer Engine 內置的 fused kernel），藍線為 FP8 訓練結合 Transformer Engine。

綠線顯示，僅用 BF16 訓練時，模型在單 GPU 卡上即遭遇內存不足（OOM），而在啟用 Transformer Engine 后，依舊采用 BF16，模型也能順利完成訓練。若進一步轉為 FP8，單次迭代時間可提升約 34.56%。

中間的圖表展示了各類測試的顯存占用情況。如前文所述，權重、梯度及優化器（optimizer）的數據均以高精度存儲，此外，FP8 訓練因需在 checkpoint 中保存額外值，訓練時顯存占用比 FP16 略高約 5% 以內。須注意，推理階段的顯存占用與訓練階段是完全不同的。

圖 10. Llama2-7B 模型做 FP8/BF16

繼續訓練的 loss 曲線高度一致

圖 10 展示了對 Llama2-7B 模型做 FP8 繼續訓練的效果。本測試并未進行長時間的訓練，目的是在為了提供概念驗證（PoC, Proof of Concept）。圖中共有四條曲線：灰色曲線代表全程使用 BF16 訓練，其余三條線分別表示以 BF16 進行預訓練，保存 checkpoint 后，再分別以 BF16 與 FP8 繼續訓練。從繼續訓練的兩條曲線來看，loss 曲線高度一致，且與灰色曲線的趨勢也保持一致。

圖 11. Llama2-7B 模型 1.3 萬步內

全程 FP8/BF16 訓練的 loss 曲線基本一致

圖 11 展示的是對 Llama2-7B 在 1.3 萬迭代步內做全程 FP8 訓練，可以看到它和全程 BF16 訓練的 loss 曲線也幾乎一致。

FP8 推理流程

本章節分享使用 TensorRT-LLM 進行 FP8 推理。前文圖 8 展示的 FP8 訓練在 Transformer Engine 上的完整流程，而在進入推理階段，圖 8 下半部分如梯度等訓練特有部分可去除，僅保留上半部份即可。

訓練時為確保梯度計算準確，權重通常維持為高精度（如 BF16 或 FP32），這是由于訓練時需更新參數，而在推理時，權重已固定，故可在模型加載或預處理階段提前將權重轉換為 FP8，確保模型加載即為 FP8 格式。此外，推理階段應盡量進行操作融合，如將 LayerNorm 與后續數據格式轉換操作整合，確保 kernel 輸入輸出盡可能維持 FP8，從而能夠有效提升 GPU 內存吞吐。同樣，GeLU (Gaussian Error Linear Unit) 激活函數也要力求融合。

目前少量輸出仍會保持為 FP16，原因是 NVIDIA NCCL 僅支持高精度規約操作（reduction），所以現在仍然需采用 FP16 進行 reduction，完成后再轉化為 FP8。

圖 12. FP8 推理流程

經過上述融合后，推理流程就簡化為圖 12 所示。綠線代表 FP8 的輸入輸出（I/O），紅線表示高精度 I/O。圖中可見，最前端的 LayerNorm 輸出與權重均為 FP8，矩陣輸出暫時保持 FP16，與前文描述一致。并且經過測試驗證可得，雖然矩陣輸出精度對整體性能影響較小，但與輸入問題的規模相關；且因其計算密集特性，對輸出形態影響微弱。

在完成 MHA（Multi-Head Attention）后，需要將結果轉換為 FP8 以進行后續矩陣計算，Reduction 是以 FP16 執行后再轉換到 FP8 的。對于 MLP1 和 MLP2，兩者邏輯相似，但不同之處在于：MLP1 的輸出可保持在 FP8，因為它已經把 GeLU 加 Bias 等操作直接融合到 MLP1 的 kernel。

由此引發的關鍵問題是，能否將剩余紅線（高精度 I/O）全部轉為綠線（FP8 I/O），實現進一步的加速優化？這正是 NVIDIA 持續進行的方向。以 reduction 為例，NVIDIA 正研究直接實現 FP8 reduction，盡管中間累加仍需高精度，但在數據傳輸階段可采用 FP8。與現有 reduction 不同的是，FP8 reduction 內部需引入反量化（de-quantization）與量化（quantization）操作，故需定制開發 reduction kernel。

最佳實踐：使用 TensorRT-LLM 實現 FP8 推理

TensorRT-LLM 是基于 NVIDIA TensorRT 構建，其 FP8 能力也主要是通過 TensorRT 提供。自 TensorRT 9.0 版本起，官方就已經開始支持 FP8 推理。要在 TensorRT 中啟用 FP8 推理，需完成以下幾步：

設置 FP8 標志：通過調用 config.set_flag (trt.BuilderFlag.FP8) 在 TensorRT 配置中啟用 FP8 支持。類似 INT8、BF16、FP16，FP8 也是類似的啟用方式。

添加 GEMM 縮放因子（scale）：主要針對輸入和權重，需在 weight.py （TensorRT-LLM 中的文件）中額外加載這些縮放因子。這是 FP8 推理中不可或缺的步驟。

編寫 FP8模型：現階段我們需要明確編寫需要 FP8 支持的模型。具體做法如下：將原始 FP16 輸入量化至 FP8，隨后進行反量化；權重同樣進行量化與反量化操作。如此編寫的模型，TensorRT 會自動將量化與反量化操作盡可能與前一個 kernel 融合，以及將反量化操作與 matmul kernel 融合。最終生成的計算圖表現為量化后的 X 與 W 直接進行 FP8 計算，輸出也為 FP8 結果。

為了簡化 FP8 在 TensorRT-LLM 中的應用，TensorRT-LLM 已對其進行封裝，提供了 FP8 linear 函數和 FP8 row linear 函數來實現。對于使用直接線性層（linear layer），則無需重新編寫代碼，直接調用函數即可。

圖 13. FP8 推理計算流程

本文用圖 13 總結上述內容。首先權重以 FP8 精度存儲的，在進行計算前，權重先經歷一次反量化。注意，在此之前，權重的量化已在輸入前完成了，此處僅需進行反量化操作。這意味著，在進行矩陣內部計算時，實際上是使用反量化后的數據，通常是 FP16 或甚至 FP32 來進行運算的。

矩陣層盡管以 FP8 表示，但累加是采用 FP32 完成，累加后再乘以 scale 的相關參數，形成如圖所示的計算流程。最終得到的結果具備較高精度。由于累加器（accumulator）需要采用高精度的數值，因此，要獲得最終 FP8 的輸出結果，模型還需經過一個量化節點（quantitation node）。

回顧整個流程，輸入經歷了量化與反量化操作。其中，量化 kernel 發生在反量化 kernel 之前，而 TensorRT 則會智能地融合這些 kernel，確保計算的高效和準確。

使用 Tensor-LLM 實現 FP8 推理的性能

表 2 測試數據僅供技術參考和討論

表 2 對比第一列不同的 batch size，其中 max 值指的是在設定輸入為 1,024，輸出為 256，模型為 GPT-J 6B，所能使用的最大 batch size。

列表顯示，FP16 的 max 值為 75，而 FP8 的 max 值則提升至 85。原因是 FP8 僅節省了權重部分的內存，部分 tensor 以及 KV cache 仍保持在 FP16。表格最后一列展示了使用 FP8 KV cache 的情況，此時能夠看到其 max 值相比 FP16 的 max 值超出 2 倍。

在性能方面，單純啟用 FP8 會由于 batch size 提升有限，以及 KV cache 的影響，導致性能提升并不顯著。然而，一旦將 KV cache 也轉換至 FP8，通過減半其內存消耗，模型吞吐量可以相較 FP16 提升約兩倍左右，這是一個相當理想的性能提升幅度。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4644

瀏覽量
101990
計算機視覺

計算機視覺

+關注

關注
8

文章
1609

瀏覽量
45682
GPT

GPT

+關注

關注
0

文章
326

瀏覽量
14975

原文標題：NVIDIA GPU 架構下的 FP8 訓練與推理

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

大型語言模型（LLM）和專家混合（MoE）模型的推理過程。第二代Transformer引擎采用8位浮點（FP8）和新的精度等技術，將大型語言模型如GPT-MoE-1.8T的訓練速度提

發表于 05-13 17:16

NVIDIA推出兩款基于NVIDIA Ampere架構的全新臺式機GPU

兩款 NVIDIA Ampere 架構 GPU 為工作站帶來實時光線追蹤功能和生成式 AI 工具支持。

的頭像

發表于 04-26 11:25 ?240次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網絡和熱

的頭像

發表于 04-20 09:39 ?231次閱讀

FP8在NVIDIA GPU架構和軟件系統中的應用

在深度學習和人工智能的快速發展背景下，尤其是大語言模型（Large Language Model，LLM）的蓬勃發展，模型的大小和計算復雜性不斷增加，對硬件的性能和能效提出了極高要求。

的頭像

發表于 03-28 14:09 ?292次閱讀

<b class='flag-5'>FP8</b>在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b><b class='flag-5'>架構</b>和軟件系統中的應用

NVIDIA的Maxwell GPU架構功耗不可思議

整整10年前的2013年2月19日，NVIDIA正式推出了新一代Maxwell GPU架構，它有著極高的能效，出場方式也非常特別。

的頭像

發表于 02-19 16:39 ?567次閱讀

<b class='flag-5'>NVIDIA</b>的Maxwell <b class='flag-5'>GPU</b><b class='flag-5'>架構</b>功耗不可思議

NVIDIA GPU因出口管制措施推遲發布

據之前所披露的詳細數據，英偉達HGX H20雖屬與H100和H200同系列，共享英偉達Hopper架構，但擁有高達96GB的HBM3顯存及4.0TB/s的顯存帶寬，計效包括FP8達到296TFLOPS和FP16高達148TFLO

的頭像

發表于 01-03 09:25 ?327次閱讀

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>因出口管制措施推遲發布

揭秘GPU：高端GPU架構設計的挑戰

在計算領域，GPU（圖形處理單元）一直是性能飛躍的代表。眾所周知，高端GPU的設計充滿了挑戰。GPU的架構創新，為軟件承接大模型訓練和

的頭像

發表于 12-21 08:28 ?490次閱讀

揭秘<b class='flag-5'>GPU</b>：高端<b class='flag-5'>GPU</b><b class='flag-5'>架構</b>設計的挑戰

NVIDIA GPU的核心架構及架構演進

在探討 NVIDIA GPU 架構之前，我們先來了解一些相關的基本知識。GPU 的概念，是由 NVIDIA 公司在 1999 年發布 Gef

發表于 11-21 09:40 ?516次閱讀

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心<b class='flag-5'>架構</b>及<b class='flag-5'>架構</b>演進

【AI簡報20231103期】ChatGPT參數揭秘，中文最強開源大模型來了！

1. 用FP8訓練大模型有多香？微軟：比BF16快64%，省42%內存原文： https://mp.weixin.qq.com/s/xLvJXe2FDL8YdByZLHjGMQ 低精度訓練是大模型

的頭像

發表于 11-03 19:15 ?1035次閱讀

【AI簡報20231103期】ChatGPT參數揭秘，中文最強開源大模型來了！

邊緣生成人工智能推理技術面臨的挑戰有哪些

雖然訓練通?；谏纱罅繑祿?fp32 或 fp64 浮點算法，但它不需要嚴格的延遲。功耗高，成本承受能力高。相當不同的是推理過程。推理

發表于 10-10 09:38 ?215次閱讀

Oracle 云基礎設施提供新的 NVIDIA GPU 加速計算實例

也即將在 OCI Compute 上推出。 OCI 上的 NVIDIA? H100 Tensor Core GPU 實例 OCI Co mpute 裸機實例配備了具有? NVIDIA Hopper ?

發表于 09-25 20:40 ?306次閱讀

NVIDIA Grace Hopper超級芯片橫掃MLPerf推理基準測試

Hopper超級芯片首次亮相 MLPerf 行業基準測試，其運行了所有數據中心推理測試，進一步擴大了NVIDIA H100 Tensor Core GPU的領先優勢。 ? 總體測試結果表明，

發表于 09-13 09:45 ?184次閱讀

深度學習框架區分訓練還是推理嗎

深度學習框架區分訓練還是推理嗎深度學習框架是一個非常重要的技術，它們能夠加速深度學習的開發與部署過程。在深度學習中，我們通常需要進行兩個關鍵的任務，即訓練和推理。

發表于 08-17 16:03 ?1083次閱讀

SIGGRAPH 2023 | NVIDIA 與全球數據中心系統制造商大力推動 AI 與工業數字化的發展

OVX 服務器采用全新 NVIDIA GPU 以加速訓練和推理以及圖形密集型工作負載，將通過戴爾科技、慧與、聯想、超微等公司提供。洛杉磯 — SIGGRAPH — 太平洋時間 202

發表于 08-09 19:10 ?294次閱讀

NVIDIA RTX平臺及Turing GPU架構榮獲美國先進影像協會技術獎

NVIDIA RTX平臺及Turing GPU架構榮獲美國先進影像協會盧米埃爾技術獎

發表于 08-01 14:58 ?415次閱讀

NVIDIA英偉達企業解決方案
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot NVIDIA將深度學習引入計算機圖形領域以推動行業發展
Hot 一文講述Quadro RTX 5000帶來的性能提升

New 借助NVIDIA DOCA 2.7增強AI 云數據中心和NVIDIA Spectrum-X
New 使用OpenUSD和NVIDIA Omniverse開發虛擬工廠解決方案

精選推薦
更多

文章

資料

帖子

ELF 1技術貼|如何在Ubuntu中編譯OpenCV庫

ElfBoard
1天前

486 閱讀

【項目展示】基于CW32的遙控循跡小車

CW32生態社區
1天前

415 閱讀

精進嵌入式開源開發技能，RT-Thread?SMP培訓即將來襲！

RT-Thread官方賬號
2天前

126 閱讀

手把手教你如何在Purple Pi OH上開發板安裝Opencv

觸覺智能
2天前

229 閱讀

鴻蒙開發接口媒體：【@ohos.multimedia.image (圖片處理)】

jf_46214456
1天前

527 閱讀

GE Fanuc系列90-30 PLC在龍門吊機控制系統的應

陳博
864

免費

65下載

《EDA原理及應用》（何賓教授）課件 PPT

Kelly Yang
6.53MB

免費

550下載

頻率掃描的VHDL完整代碼

崔永順
4636KB

1積分

128下載

C語言的入門教程

李猛
0.14 MB

免費

2下載

oneops自動化運維開發云管理平臺

劉芳
12.65 MB

免費

0下載

有關PL端利用AXI總線控制PS端DDR進行讀寫（從機wready信號一直不拉高）

jf_86841278
2天前

688 閱讀

LDO電源模塊如何快速設計布局

鄒夢雨
2天前

515 閱讀

全志H616（BIGTREETECH CB1）和博通BCM2711（樹莓派4B）CPU對比測試

corkia
2天前

489 閱讀

請教一個三極管推Pmos管的電路問題

雪舞風華
2天前

887 閱讀

用全志XR806開發板輕松連上華為云實現物聯網

corkia
2天前

482 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看