<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何通過DLP FPGA實現低延時高性能的深度學習處理器設計呢?

FPGA研究院 ? 來源:Java學研大本營 ? 2023-12-27 09:13 ? 次閱讀

圖像識別和分析對于產品創新至關重要,但需要高工作負載,對服務質量要求嚴格。解決方案如GPU無法滿足低延遲和高性能要求。DLP FPGA是一種可行的選擇,本文將探討如何實現這種技術。

圖像識別和分析在各種產品創新中具有重要作用。然而,這些應用通常涉及高工作負載,對服務質量有嚴格要求。目前的解決方案,如GPU,無法同時兼顧低延遲和高性能要求。

為了在應用深度學習的同時提供良好的用戶體驗,可以在FPGA上架構一個超低延遲和高性能的DLP(深度學習處理器)。

DLP FPGA可以同時支持稀疏卷積和低精度數據計算,同時定義了一個定制的ISA(指令集架構),以滿足對靈活性和用戶體驗的要求。使用Resnet18(稀疏內核)的延遲測試結果顯示,FPGA的延遲只有0.174ms。

在本文中,我們將簡要討論如何通過新的DLP FPGA實現這樣的結果。

1 架構

新開發的DLP有4種模塊,根據其功能進行分類:

計算:卷積、批量歸一化、激活和其他計算

數據路徑:數據存儲、移動和重塑

參數:存儲權重和其他參數,解碼

指令:指令單元和全局控制

722dcef6-a447-11ee-8b88-92fbcf53809c.png

DLP中的Protocal Engine(PE)可以支持:

Int4數據類型輸入。

Int32數據類型輸出。

Int16量化

這種PE能提供超過90%的效率。此外,DLP的重量加載支持CSR解碼器和數據預取。

2 訓練

需要重新訓練來開發一個高精確度的模型。下面有4個主要步驟來獲得稀疏權重和低精度數據特征圖。

7249ec94-a447-11ee-8b88-92fbcf53809c.png

我們用一種有效的方法將Resnet18模型訓練到稀疏和低精度(1707.09870)。我們方法中的關鍵部分是離散化。我們專注于壓縮和加速深度模型,其網絡權重由非常小的比特數表示,被稱為極低比特神經網絡。然后我們將這個問題建模為一個離散約束的優化問題。

借用乘法交替方向法(ADMM)的思想,我們將連續參數與網絡的離散約束解耦,并將原來的硬問題鑄成幾個子問題。我們建議使用梯度外算法和迭代量化算法來解決這些子問題,與傳統的優化方法相比,這些算法會導致更快的收斂。

在圖像識別和物體檢測方面的大量實驗證明,當涉及到極低比特的神經網絡時,所提出的算法比最先進的方法更有效。

3 ISA/編譯器

如前所述,對于大多數在線服務和使用場景,僅有低延遲是不夠的,因為算法模型會經常變化。正如我們所知,FPGA的開發周期非常長;通常需要幾周或幾個月的時間來完成一個定制的設計。為了解決這一挑戰,我們設計了工業標準架構(ISA)和編譯器,以減少模型升級的時間,使之僅為幾分鐘。

724d82aa-a447-11ee-8b88-92fbcf53809c.png

SW-HW共同開發平臺由以下項目組成:

編譯器:模型圖分析和指令生成。

API/驅動:CPU-FPGA DMA圖片重塑,重量壓縮。

ISA控制器:指令解碼、任務調度、多線程流水線管理。

4 硬件

DLP是在FPGA卡上實現的,它有PCIe和DDR4內存。DLP與該FPGA卡相結合,可以使在線圖片搜索等應用場景更高效用戶體驗更好。

5 結果

72d3cc7a-a447-11ee-8b88-92fbcf53809c.jpg

使用Resnet18的FPGA測試結果表明,我們的設計實現了超低水平的延遲,同時在低于70W的芯片功率下保持了非常高的性能。

72e94fbe-a447-11ee-8b88-92fbcf53809c.png










審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    18538

    瀏覽量

    223697
  • FPGA
    +關注

    關注

    1608

    文章

    21367

    瀏覽量

    594681
  • 圖像識別
    +關注

    關注

    8

    文章

    452

    瀏覽量

    38015
  • dlp
    dlp
    +關注

    關注

    6

    文章

    330

    瀏覽量

    60761
  • 深度學習
    +關注

    關注

    73

    文章

    5257

    瀏覽量

    120079

原文標題:使用FPGA制作低延時高性能的深度學習處理器

文章出處:【微信號:FPGA研究院,微信公眾號:FPGA研究院】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    FPGA構建高性能DSP

    為設計提供可編程邏輯解決方案所固有的靈活性特點,以及定制門陣列(如ASIC)解決方案所具有的高性能及集成度?! ≡鰪奃SP處理能力的傳統方法是采用多個處理器。選擇此類方案的缺點是成本昂貴,需要眾多附加
    發表于 02-17 11:21

    FPGA處理器的優勢

      傳統的、基于通用DSP處理器并運行由C語言開發的算法的高性能DSP平臺,正在朝著使用FPGA處理器和/或協處理器的方向發展。這一最新發
    發表于 09-29 16:28

    FPGA干貨分享六】基于FPGA處理器的算法加速的實現

    APU接口。通過FPGA中嵌入一個處理器,現在就有機會在單芯片上實現完整的處理系統。帶APU接口的PowerPC使得在
    發表于 02-02 14:18

    FPGA 嵌入式處理器實現高性能浮點元算

    仿真或者專用軟邏輯 FPU 在 PowerPC 上自如地實現浮點運算。圖 1 顯示了通過 FCB 將 PowerPC 440 處理器連接至 Virtex-5 APU-FPU 的典型實施方案。圖 1
    發表于 08-03 11:15

    【詳解】FPGA深度學習的未來?

    的未來方向提出關鍵建議,幫助解決今后深度學習所面臨的問題。2. FPGA傳統來說,在評估硬件平臺的加速時,必須考慮到靈活性和性能之間的權衡。一方面,通用
    發表于 08-13 09:33

    采用Sitara處理器PRU-ICSS的高性能脈沖序列輸出 (PTO)

    控制和同步無需使用外部 ASIC 或 FPGA借助 Sitara 處理器在 PRU-ICSS 上實現包含源代碼形式的 PRU-ICSS 固件并可供客戶采用通過 TMDSICE3359
    發表于 12-17 16:03

    SEP3203處理器實現FPGA數據通信接口設計

    AHB總線寬度。由于FPGA與SEP3202處理器之間只有16位數據總線,所以設計中源地址數據寬度設為16位,目的地址數據寬度設為32位。程序如下:5 性能分析為了實現系統的流水線操作
    發表于 04-26 07:00

    快速調節器用于高性能處理器

    DN87- 快速調節器用于高性能處理器
    發表于 05-28 07:30

    飛思卡爾高性能ColdFire微處理器簡介

    最新款的ColdFire微處理器在大約380 mW的功率上提供了410 Dhrystone MIPS(DMIPS)的內核性能,能夠輕松滿足開發人員的系統功率預算,同時實現卓越的系統級性能
    發表于 07-18 06:23

    怎么實現多內核處理器開發趨勢下的高性能視頻系統設計?

    怎么實現多內核處理器開發趨勢下的高性能視頻系統設計?
    發表于 06-03 06:19

    基于Cortex-A53架構的低功耗高性能處理器RK3328有哪些功能

    基于Cortex-A53架構的低功耗高性能處理器RK3328有哪些功能?
    發表于 03-09 06:27

    什么是深度學習?使用FPGA進行深度學習的好處?

    頻率低于 CPU 和 GPU,除非設計實現,否則性能往往較差。與 CPU 和 GPU 相比實施成本高,FPGA 上支持深度學習的軟件較少很多
    發表于 02-17 16:56

    基于FPGA的1024點高性能FFT處理器的設計鐘冠文

    基于FPGA的1024點高性能FFT處理器的設計_鐘冠文
    發表于 03-19 11:36 ?10次下載

    FPGA和DSP兩種處理器之間實現SRIO協議的方法

    ,并通過 電路設計 和利用處理器的開發工具 編程 實現了兩種處理器間的高速通信。經測試,該系統具有較高的傳輸效率。 引言 隨著高性能信號
    的頭像 發表于 03-20 15:00 ?1519次閱讀

    中科億海微推出高性能FPGA加速卡系列產品

    產品概述中科億海微面向低延時高帶寬的數據加速應用推出高性能FPGA加速卡系列產品。產品采用高性能混合并行計算FPGA架構設計,具有高帶寬、高
    的頭像 發表于 07-20 18:04 ?651次閱讀
    中科億海微推出<b class='flag-5'>高性能</b><b class='flag-5'>FPGA</b>加速卡系列產品
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>