<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

FPGA與GPU架構的背景

FPGA之家 ? 來源:FPGA之家 ? 作者:FPGA之家 ? 2022-06-13 09:58 ? 次閱讀

人工智能AI)模型的規模和復雜度以每年大約 10 倍的速度不斷增加,AI 解決方案提供商面臨著巨大的壓力,他們必須縮短產品上市時間,提高性能,快速適應不斷變化的形勢。模型復雜性日益增加,AI 優化的硬件隨之出現。

例如,近年來,圖形處理單元(GPU)集成了 AI 優化的算法單元,以提高 AI 計算吞吐量。然而,隨著 AI 算法和工作負載的演變與發展,它們會展現出一些屬性,讓我們難以充分利用可用的 AI 計算吞吐量,除非硬件提供廣泛的靈活性來適應這種算法變化。近期的論文表明,許多 AI 工作負載都難以實現 GPU 供應商報告的全部計算能力。即使對于高度并行的計算,如一般矩陣乘法(GEMM),GPU 也只能在一定規模的矩陣下實現高利用率。因此,盡管 GPU 在理論上提供較高的 AI 計算吞吐量(通常稱為“峰值吞吐量”),但在運行 AI 應用時,實際性能可能低得多。

FPGA 可提供一種不同的 AI 優化的硬件方法。與 GPU 不同,FPGA 提供獨特的精細化空間可重構性。這意味著我們可以配置 FPGA 資源,以極為準確的順序執行精確的數學函數,從而實施所需的操作。每個函數的輸出都可以直接路由到需要它的函數的輸入之中。這種方法支持更加靈活地適應特定的 AI 算法和應用特性,從而提高可用 FPGA 計算能力的利用率。此外,雖然 FPGA 需要硬件專業知識才能編程(通過硬件描述語言),但專門設計的軟核處理單元(也就是重疊結構),允許 FPGA 以類似處理器的方式編程。FPGA 編程完全通過軟件工具鏈來完成,簡化了任何特定于 FPGA 的硬件復雜性。

FPGA與GPU架構的背景

2020 年,英特爾 宣布推出首款 AI 優化的 FPGA — 英特爾 Stratix 10 NX FPGA 器件。英特爾 Stratix 10 NX FPGA 包括 AI 張量塊,支持 FPGA 實現高達 143 INT8 和 286 INT4 峰值 AI 計算 TOPS 或 143 塊浮點 16(BFP16)和 286 塊浮點 12(BFP12)TFLOPS。最近的論文表明,塊浮點精度可為許多 AI 工作負載提供更高的精度和更低的消耗。NVIDIA GPU 同樣也提供張量核。但從架構的角度來看,GPU 張量核和 FPGA AI 張量塊有很大的不同,如下圖所示。

909881c0-eaac-11ec-ba43-dac502259ad0.png

GPU 和 FPGA 都有張量核心。FPGA 有可以在數據流內外編織的軟邏輯

90ce859a-eaac-11ec-ba43-dac502259ad0.png

(左)GPU 數據從張量核心處理的內存系統中讀取,寫回內存系統。(右)FPGA 數據可以從內存中讀取,但數據流可以并行安排到一個或多個張量核心。任意數量的張量核心都能以最小的傳輸開銷使用輸出。數據可以被寫回內存或路由到其他任何地方

英特爾研究人員開發了一種名為神經處理單元(NPU)的 AI 軟處理器。這種 AI 軟處理器適用于低延遲、低批量推理。它將所有模型權重保持在一個或多個連接的 FPGA 上以降低延遲,從而確保模型持久性。

910acc80-eaac-11ec-ba43-dac502259ad0.png

NPU 重疊架構和用于編程 NPU 軟核處理器的前端工具鏈高級概述

FPGA與GPU性能比較

本次研究的重點是計算性能。下圖比較了英特爾 Stratix 10 NX FPGA 上的 NPU 與 NVIDIA T4 和 V100 GPU 運行各種深度學習工作負載的性能,包括多層感知器(MLP)、一般矩陣向量乘法(GEMV)、遞歸神經網絡(RNN)、長期短期記憶(LSTM)和門控循環單元(GRU)。GEMV 和 MLP 由矩陣大小來指定,RNN、LSTM 和 GRU 則通過大小和時間步長來指定。例如,LSTM-1024-16 工作負載表示包含 1024x1024 矩陣和 16 個時間步長的 LSTM。

91486914-eaac-11ec-ba43-dac502259ad0.png

NVIDIA V100 和 NVIDIA T4 與英特爾 Stratix 10 NX FPGA 上的 NPU 在不同批處理規模下的性能。虛線顯示 NPU 在批次大小可被 6 整除情況下的性能

從這些結果可以充分地看出,英特爾 Stratix 10 NX FPGA 不僅可以在低批次實時推理時實現比 GPU 高一個數量級的性能,還可以有效地進行高批次實時推理。

由于架構上的差異和靈活編程模型,英特爾 Stratix 10 NX FPGA 還可實現更出色的端到端性能。不會產生與 GPU 相同的開銷。

91848282-eaac-11ec-ba43-dac502259ad0.png

短序列和長序列時 RNN 工作負載的系統級執行時間(越低越好)

結論

英特爾 Stratix 10 NX FPGA 采用高度靈活的架構,所實現的平均性能比 NVIDIA T4 GPU 和 NVIDIA V100 GPU 分別高 24 倍和 12 倍。

由于其較高的計算密度,英特爾 Stratix 10 NX FPGA 可為以實際可達到性能為重要指標的高性能、延遲敏感型 AI 系統提供至關重要的功能。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1606

    文章

    21344

    瀏覽量

    594187
  • 英特爾
    +關注

    關注

    60

    文章

    9509

    瀏覽量

    169263
  • 算法
    +關注

    關注

    23

    文章

    4465

    瀏覽量

    90960

原文標題:實際性能超過GPU,英特爾?Stratix?10 NX FPGA如何助您在AI加速領域贏得先機?

文章出處:【微信號:zhuyandz,微信公眾號:FPGA之家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    fpgagpu的區別

    FPGA(現場可編程門陣列)和GPU(圖形處理器)在多個方面存在顯著的區別。
    的頭像 發表于 03-27 14:23 ?416次閱讀

    FPGA在深度學習應用中或將取代GPU

    現場可編程門陣列 (FPGA) 解決了 GPU 在運行深度學習模型時面臨的許多問題 在過去的十年里,人工智能的再一次興起使顯卡行業受益匪淺。英偉達 (Nvidia) 和 AMD 等公司的股價也大幅
    發表于 03-21 15:19

    fpga芯片架構介紹

    FPGA(現場可編程門陣列)芯片架構是一種高度靈活和可編程的集成電路架構,它以其獨特的結構和功能,在現代電子系統中扮演著至關重要的角色。FPGA芯片
    的頭像 發表于 03-15 14:56 ?307次閱讀

    fpga是什么架構

    FPGA(現場可編程門陣列)的架構主要由可配置邏輯模塊(CLB)、輸入/輸出模塊(IOB)以及可編程互連資源組成。
    的頭像 發表于 03-14 17:05 ?311次閱讀

    深入解讀AMD最新GPU架構

    GCN 取代了 Terascale,并強調 GPGPU 和圖形應用程序的一致性能。然后,AMD 將其 GPU 架構開發分為單獨的 CDNA 和 RDNA 線路,分別專門用于計算和圖形。
    發表于 01-08 10:12 ?565次閱讀
    深入解讀AMD最新<b class='flag-5'>GPU</b><b class='flag-5'>架構</b>

    FPGA、ASIC、GPU誰是最合適的AI芯片?

    CPU、GPU遵循的是馮·諾依曼體系結構,指令要經過存儲、譯碼、執行等步驟,共享內存在使用時,要經歷仲裁和緩存。 而FPGA和ASIC并不是馮·諾依曼架構(是哈佛架構)。以
    發表于 01-06 11:20 ?647次閱讀
    <b class='flag-5'>FPGA</b>、ASIC、<b class='flag-5'>GPU</b>誰是最合適的AI芯片?

    FPGAGPU的區別

    FPGA(現場可編程門陣列)和GPU(圖形處理器)是兩種常見的硬件加速器,用于提高計算和處理速度。盡管它們在很多方面都有重疊,但在架構、設計和應用上存在許多區別。在本文中,我們將詳細探討FPG
    的頭像 發表于 12-25 15:28 ?1130次閱讀

    揭秘GPU: 高端GPU架構設計的挑戰

    在計算領域,GPU(圖形處理單元)一直是性能飛躍的代表。眾所周知,高端GPU的設計充滿了挑戰。GPU架構創新,為軟件承接大模型訓練和推理場景的人工智能計算提供了持續提升的硬件基礎。
    的頭像 發表于 12-21 08:28 ?463次閱讀
    揭秘<b class='flag-5'>GPU</b>: 高端<b class='flag-5'>GPU</b><b class='flag-5'>架構</b>設計的挑戰

    NVIDIA GPU的核心架構架構演進

    在探討 NVIDIA GPU 架構之前,我們先來了解一些相關的基本知識。GPU 的概念,是由 NVIDIA 公司在 1999 年發布 Geforce256 圖形處理芯片時首先提出,從此 NVIDIA
    發表于 11-21 09:40 ?495次閱讀
    NVIDIA <b class='flag-5'>GPU</b>的核心<b class='flag-5'>架構</b>及<b class='flag-5'>架構</b>演進

    FPGA和CPU、GPU有什么區別?為什么越來越重要?

    ,CPU、GPU、FPGA等處理器的區別在于處理流程,CPU 的處理 流程使其擅長串行計算,以復雜的控制為特征,GPUFPGA 的則更擅長大規模的并行計算: CPU是馮諾依
    發表于 11-09 14:09

    【精彩回顧】ALINX亮相第七屆內鏡大會,發布FPGA+GPU架構高端醫療影像解決方案

    作為國內最大的FPGA核心板供應商,芯驛電子科技(上海)有限公司ALINX亮相第七屆內鏡大會,發布了“內窺鏡、手術機器人解決方案”——基于FPGA+GPU架構高算力3D處理平臺的醫療行業影像解決方案。
    的頭像 發表于 10-22 16:42 ?596次閱讀
    【精彩回顧】ALINX亮相第七屆內鏡大會,發布<b class='flag-5'>FPGA+GPU</b>異<b class='flag-5'>架構</b>高端醫療影像解決方案

    FPGA架構演進之路 FPGA架構設計原則和實現挑戰

    成本。FPGA架構的設計涉及許多不同的設計選擇,從高級架構參數到晶體管級實現細節,目標是制造高度可編程的器件,同時最小化可重新配置的面積和性能成本。隨著應用需求和工藝技術能力的不斷發展,FPG
    發表于 08-11 09:52 ?1202次閱讀
    <b class='flag-5'>FPGA</b><b class='flag-5'>架構</b>演進之路 <b class='flag-5'>FPGA</b><b class='flag-5'>架構</b>設計原則和實現挑戰

    GPUFPGA的工作原理及其區別

      GPUFPGA都是現代計算機技術中的高性能計算設備,具有不同的特點和應用場景。本文將詳細介紹GPUFPGA的工作原理及其區別。
    的頭像 發表于 08-06 16:50 ?1684次閱讀

    基于磁貼的GPU架構優缺點

    本指南介紹了基于磁貼的GPU架構的優缺點。它還將ARM馬里基于瓷磚的GPU架構設計與臺式PC或控制臺中常見的更傳統的即時模式GPU進行了比較
    發表于 08-02 12:54

    淺談FPGA芯片架構

    ?FPGA 芯片架構是非常重要的,如果你不了解 FPGA 芯片內部的詳細架構。
    的頭像 發表于 07-04 14:36 ?920次閱讀
    淺談<b class='flag-5'>FPGA</b>芯片<b class='flag-5'>架構</b>
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>