<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

在DNN中FPGA做了一些什么？

引言

深度神經網絡（deep nearal network）是機器學習發展20年來取得的最大突破，比如在語音識別方面，相比于傳統方法，其將錯誤率降低了30%；而在2011年的圖片識別競賽上，將錯誤率從26%降低到3.5%，這些使得處于發展低谷的人工智能突然熱門起來，從學術界擴展到工業界，甚至在google的alpha go擊敗了頂級圍棋大師李世石后，人工智能成為全民討論的熱門，所有的程序員都夢想轉行機器學習。

DNN中應用最廣泛的是CNN和RNN，CNN是一種卷積網絡，在圖片識別分類中用的較多，RNN可以處理時間序列的信息，比如視頻識別和語音識別。這些DNN結構通常很深，計算量也很大。比如VGG16用來處理1000種圖片類別，有550MB的權重數據，完成一個分類就需要31Gop（operations）。為了降低計算量和訪問內存時間，有兩種方法：量化和降低權重。量化是減小權重或者激活數據的精度，比如從32bit浮點量化到8bit甚至1bit，就減小了數據量。降低權重包括剪枝和結構簡化，這兩種方法可以去除多余的權重參數。

DNN包括訓練和推理兩個階段，訓練是一個學習過程，通過不斷的對權重進行迭代更新而使得網絡獲得智能。而推理階段是給出一定輸入后，網絡會根據之前學習到的知識，輸出準確結果。為了使得結果具有更高準確率，訓練是進行浮點運算，同時涉及到大量的微分運算，所以訓練通常由GPU完成。但是訓練是一次性的，當訓練完成，網絡就可以直接用于推斷而不需要再進行訓練。FPGA就是用于推理過程，相比于CPU，具有更加靈活可編程的特點?？梢葬槍NN的特性增加運算并行度，調整內存訪問，比CPU獲得更高的實現效果。本章對自己基于FPGA進行DNN設計的經驗做一個總結，包括對網絡模型的一些體會，以及FPGA設計架構的一些思路，拋磚引玉，期待更多熱愛AI加速的同學們加入討論。

1

DNN模型

不論是CNN還是RNN，一個共同特點是整個網絡是由幾個相同的單元聯結形成的。CNN中基本的單元是神經元，一個神經元包含一個權重和激活函數，其中權重是對輸入信息進行卷積（圖1.1），幾乎大部分運算量都集中在卷積運算中。激活函數是對卷積后的結果進行非線性運算，激活函數有很多，像Relu，sigmoid等?；镜腃NN網絡結構如圖1.2，網絡每層都由多個神經元構成，每個神經元的輸入來自上一層的輸出，本層輸出作為下一層的輸入。每層的輸入通道是上一層神經元的個數，輸出通道是這一層神經元個數。每個神經元對應不同輸入通道的數據都有不同的權重數據（即kernel），這些權重和對應輸入通道的圖像完成卷積之后再求和，最后通過非線性激活函數給出輸出通道的值。我們用偽代碼來表示一層網絡的運算過程：

For(int o=0;o

其中內四層循環是圖像和權重的卷積運算，FPGA就是利用這6層循環進行加速。從這偽代碼中可以看出每個乘法都是相互獨立的，不會依賴于其他運算，而加法包含兩種，一種是在卷積運算中，另外一種是每個輸入通道卷積后的數據要求和。

圖1.1 圖像卷積

圖1.2 CNN網絡結構

另外一種比較常用的網絡是RNN，這是一種循環神經網絡，具有記憶功能，可以處理時序信息。這里重點介紹一下LSTM網絡，LSTM也是一種RNN。但是其增加了多個門控：記憶門，輸入門，輸出門等。這些門解決了梯度消失和發散的問題，能夠處理更長時序的信息。所以在語音識別和視頻識別方面有重要應用。LSTM原理的介紹可以參見本公眾號歷史文章《LSTM原理》。FPGA更多的關心其中有哪些運算，LSTM中主要包含矩陣乘法，向量求和，激活操作，向量點乘等。矩陣乘法消耗最多的運算資源，如何優化這種運算是FPGA實現加速的關鍵。

對于矩陣乘法，根據其乘法順序有一下幾種方式。

1）小矩陣x小矩陣

A每次獲得nxm塊數據，和B的mxv塊數據相乘，然后A移動nxm塊，B向下移動mxv塊，再次相乘并且和之前結果累加，當A移動到右端，B同時移動到底端，完成C中nxv矩陣塊。A中數據復用率在V次。

圖1.3 小矩陣x小矩陣

2）列向量x行向量

A每次獲得nx1列向量，B獲得1xn行向量，二者進行叉乘，得到nxn個矩陣數據，然后A向右移動，同時B向下移動，二者叉乘結果和上一次進行累加，最后當A移動到右端，B到底端，得到了一個nxn大小的C矩陣塊。A中數據復用率在n次。

圖1.4列向量x行向量

對比這兩種計算方式，第一種A數據復用率取決于B矩陣列大小。A可以看做權重，B看做輸入的圖像或者聲音信息，如果輸入信息“寬度不夠”，那么權重利用率低，就會造成運算比搬運數據慢，造成帶寬瓶頸。第二種方式A僅僅需要n個數，就能參與n*n次乘法，利用率較高。這能夠很大緩解帶寬瓶頸。但是如果B的寬度較小或者B為向量，那么就會造成算力較低，搬運進n個數只能計算n次乘法。如何選擇需要根據實際情況來決定。

2

量化和減少權重

雖然浮點數能夠表示更高的數據精度和更大的數據寬度，但是浮點數據占用的存儲資源和運算資源都較大，造成推理時間較長。隨著網絡的復雜和加深，對推理延時的要求越來越高，因此通過必要手段來壓縮網絡模型，降低推理延時顯得非常重要。壓縮網絡模型主要有兩種方式：量化和減少權重。

1）定點化。

通過仿射變換將浮點數等效的映射到定點數空間，比如對于一個分布范圍在（Xmin, Xmax）的權重數據，需要映射到（0，N-1）區間，其中N是定點可以表示的數據范圍。浮點數就可以通過一個尺度和偏移量來表示為：

其中Z為0點偏移量，也是定點數據，S為尺度大小，用浮點數表示。在計算卷積的時候，就可以將尺度因子提取出來進行后處理，而乘法和加法運算使用定點完成。比如對于一個卷積運算可以表示為：

2）二值化

二值化就是將參數量化到兩個值{-1， 1}，和一個尺度參數。二值化網絡大大降低了運算和參數存儲，但是也對網絡精度有很大削弱，所以應用范圍很窄，比如用在MNIST和CIFAR-10這樣比較小的數據集中。對于定點乘法一般都是用DSP實現，所以算力大小受到了FPGA中DSP數量的限制。而二值化網絡的乘法運算可以通過簡單的邏輯來實現，不在受限于DSP資源，可以大大提高算力。將浮點轉化為二值有兩種方式，一種是設定閾值，超過閾值設為1，小于設為-1。即：

其中概率為：

隨機rounding不會導致參數分布發生偏移。

1） log量化

在一個2為底的對數表達中，參數被量化為一個2的冪次數據和尺度數。對數表達可以通過少量的bit位數涵蓋寬闊的數據范圍。比如3bit數據，最大為8，用2的冪次表達可以涵蓋從0到255個數據范圍。使用了log表達的乘法就可以用移位操作來實現了，這大大節省了DSP的使用。

量化的方式主要分為兩種：一種是訓練后量化，一種是在訓練過程中量化。訓練后量化省去了重新量化，但是可能對精度造成較大損失。訓練過程量化，是在進行前向網絡計算的時候，使用量化參數，而在反向傳播過程中存儲了浮點參數，更新浮點參數。過程如下：

減少權重的方法也有很多，比如剪枝和結構化參數。剪枝是去除不重要的神經元連接，大大減少了權重數據，而結構化參數是通過設定閾值，讓某一塊的參數集體為0，這樣降低了參數存儲和計算量。這兩種方法的詳細介紹請見公眾號之前的文章。

3

FPGA中并行方法

CNN中可以進行并行化運算的結構有：輸入通道，輸出通道，圖像卷積。這其中輸出通道之間是沒有依賴關系的，而輸入通道的結果是需要求和的。圖像卷積每行輸出像素之間沒有依賴關系，但是每個結果像素是對應原來圖像多個像素的。即一個卷積核涵蓋大小的像素和對應卷積核相乘后累加。

神經網絡中輸入輸出通道數量通常都較大，從輸入輸出通道上并行是一個很好的加速方法。比如我們選擇4個輸入通道和4個輸出通道，如圖3.1所示。

圖3.1 輸入輸出通道并行化

這樣就可以同時并行4x4個卷積運算，對于一個網絡層為16（輸入通道）x16（輸出通道）的卷積運算，應用上述結構，就可以這樣拆分來運算（圖3.2）：每次都完成4x4通道運算，因為有16個輸入通道，進行4次這樣的運算，就可以輸出4個輸出通道數據。以同樣方法進行4次就實現了16x16網絡層的卷積運算。

因為輸入通道之間需要求和運算，所以使用了加法樹。隨著輸入通道變大，加法樹級數會變深。假設使用2輸入加法模塊，那么上述4通道結構的加法樹級數就是2。在進行FPGA設計的時候這是一個需要考慮的問題，輸入通道越多，加法樹的fan-in越大，那么在高速時鐘情況下，不同路徑時間的延時就會影響時序性能了。如果輸出通道變大，那么feature map數據的扇出就會變大，因為同一個feature map是被所有輸出通道共享的。

圖3.2 通過4次4x4運算，然后求和完成4輸出通道數據

輸入輸出通道的并行數收到了網絡層大小以及fan-in和fan-out的限制，不可能太大。所以要增加并行度還需要繼續探索圖像卷積。首先我們想到卷積不是多個像素和卷積核進行乘法嘛，那么我們也將這些乘法并行起來就可以啦。但是這樣存在一個問題就是：卷積核大小是不固定的，比如3x3卷積核中9個乘法被同時執行，那么等到了1x1卷積核，就會只有1個乘法器被使用，降低了乘法器利用率。因此這樣并行不靈活。并行運算最好找到不存在依賴關系的運算。每行像素的輸出是并行的，沒有依賴關系的。那么就可以同時進行多行的卷積運算，而一個卷積核內的乘法和加法就可以用一個乘法器和累加器來做，這樣就能適應不同卷積核大小的運算。多行并行運算如圖3.3。

圖3.3 3行卷積并行運算

采用以上輸入輸出通道的架構，缺點就是fan-out和fan-in較大，加法樹級數較大。有沒有什么方法可以降低fan-in和fan-out呢？如果將輸入通道的求和也使用累加來實現，那就變成只有一個PE完成卷積運算以及不同通道的求和。但是一個PE卻降低了并行度，那么可以想到增加串行的PE數量來增加輸入并行度，即演變為一列PE來實現輸入通道求和。由于PE排序上的空間限制，導致后邊一個PE的計算相比于前一個PE要有1個周期延時，如果將數據從從PE間的移動打一拍，那正好可以在第二個PE計算出來的同時完成和前一個PE的求和，這就是脈動的關鍵所在。更具體的脈動陣列講解請看公眾號之前文章。

圖3.4 加法樹轉化為脈動結構

4

存儲結構

即使經過了量化和剪枝等處理，網絡的參數也非常大（如表4.1），這在有限的FPGA資源下是無法全部存儲于片上的。因此需要一個片外存儲器（DDR）來存儲權重和信息數據，在需要數據的時候從片外搬上片上來進行計算，并將結果存儲到片外存儲器。

表4.1 幾種網絡壓縮前和壓縮后大小對比

表4.2 幾種Xilinx器件存儲資源

這時候影響網絡推理延時的因素就不僅僅包含算力的大小了，還需要考慮片上存儲大小，ddr帶寬，權重和信息數據復用率的影響。帶寬和算力對推理延時的綜合作用可以通過roofline圖來表示。所謂“Roof-line”，指的就是由計算平臺的算力和帶寬上限這兩個參數所決定的“屋頂”形態。Roofline的縱坐標表示算力，屋頂代表了FPGA所能達到的最大算力，橫坐標表示每byte數據可以參與多少次運算，表示了權重和信息數據的復用率。由roofline劃分出兩個瓶頸區域，一個是算力瓶頸，一個是帶寬瓶頸。當權重和數據復用率較高，即I大于FPGA所能達到的最大算力對應的復用率的時候，FPGA算力就是瓶頸，但是這種情況是好事情，因為FPGA的運算資源達到了100%的利用。如果數據復用率較低的時候，那么帶寬就成為瓶頸，因為在當前帶寬下，載入到片上的數據無法支持最大算力，這時候FPGA運算資源利用率沒有被全部利用，存在等待數據情形。

圖4.1 roofline圖

在一個CNN中，網絡越往后圖像大小越小，輸入輸出通道數量變大，這導致的結果就是權重參數的復用率變低，這個時候FPGA計算資源利用率就會降低。這個時候帶寬大小以及片上存儲就成為瓶頸?？紤]片上存儲后，通過一個簡單模型來分析FPGA計算資源利用率。容易知道數據量和復用率同總計算量的關系：

其中D為數據量，I為數據復用率。那么FPGA運算資源自用率就可以表示為：

5

指令

指令實際上是一些控制FPGA流程的信息，比如載入多少數據，進行哪些運算（conv，pool等）。這些控制信息會根據不同的網絡結構編輯好，存儲成二進制文件放到ddr中。通過FPGA讀入來控制操作。這些指令大體上包括以下幾種：

1） load weights/image：從ddr中加載權重或者image數據到片上來。這其中會包含ddr首地址，需要讀入的數據長度等信息。

2） conv：這個主要進行卷積運算，包括卷積核大小，圖像大小，輸入輸出通道等信息。

3） activate：激活函數的控制，控制是否進行激活操作。

4） save image：將運算完的結果存儲到ddr中，包括ddr地址，長度等信息。

總結

FPGA的靈活可配置結構非常適合不斷變化的網絡結構，同時其并行化和pipeline優勢可以用于神經網絡的加速。在進行FPGA設計的時候，需要考慮到并行化方式，存儲結構，如何平衡帶寬和算力之間的關系。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

FPGA

FPGA

+關注

關注
1610

文章
21372

瀏覽量
595022
神經元

神經元

+關注

關注
1

文章
287

瀏覽量
18371
dnn

dnn

+關注

關注
0

文章
56

瀏覽量
8975

原文標題：在DNN中FPGA做了什么？

文章出處：【微信號：zhuyandz，微信公眾號：FPGA之家】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

中高端FPGA如何選擇

的因素，集成了我們上面所列舉的目前最先進的硬核，但價格卻比Virtex Ultrascale+便宜很多。當然，目前Achronix的FPGA中的邏輯資源數量相對Virtex Ultrascale+要少一些，I/O數量也自然少

發表于 04-24 15:09

基于FPGA進行DNN設計的經驗總結

DNN中應用最廣泛的是CNN和RNN，CNN是一種卷積網絡，在圖片識別分類中用的較多，RNN可以處理時間序列的信息，比如視頻識別和語音識別。

發表于 04-07 10:23 ?155次閱讀

基于<b class='flag-5'>FPGA</b>進行<b class='flag-5'>DNN</b>設計的經驗總結

FPGA在深度學習應用中或將取代GPU

，這使其在 AI 應用中面臨著一些挑戰。 Larzul 表示，想要解決這些問題的解決方案便是實現現場可編程門陣列 (FPGA)，這也是他們公司的研究領域。

發表于 03-21 15:19

STM32L476利用雙bank的方式進行升級,在flash中設置的一些flag讀不到是什么問題？

STM32L476利用雙bank的方式進行升級,這個是通過Syscfg_Memrmp中的FB_Mode來做的，我試了下，可以快速切換到另外一個bank，但是在flash中設置的

發表于 03-12 07:43

找一些有關通信電路的資料？

有關嵌入式之間DSP、ARM、FPGA三者之間和這三款芯片和外部電路之間通信的一些資料，比如說芯片之間的并行通信和芯片和外部電路之間的串行通信，MODBUS、DP、CAN等，一些一些常

發表于 03-03 18:53

做FPGA向FX3寫數據的過程中遇到了一些問題求解

你好我在做FPGA向FX3寫數據的過程中遇到了一些問題想要明確一下：（緩沖區的大小設置為16kB，數據總線位寬為32位，水印值為6） 1、如果以16kB為單位寫，這時候pktend_

發表于 02-28 07:45

有關射頻技術無線傳輸的一些問題

實際生活中無線信息傳播應用極為廣泛，有一些在無線傳輸方面應用的問題想請教。想了解了解。 1、在有線電路中傳輸的信息是怎么傳發送到空間的，這個發送的電路的原理是什么？ 2、生活

發表于 02-03 14:42

找一些無功補償裝置SVG的資料

找一些SVG電路原理和功能碼相關的技術說明書，想了解一些SVG的工作原理和工作過程

發表于 02-03 10:13

PSOC Creator 4.4中是否有一些設置可以阻止strtok操作？

我需要一些幫助才能開始使用這個功能。我做了一個簡單的代碼，意圖用逗號作為分隔符來標記字符串。我嘗試在 PC 上模擬以下代碼并將其改編為 PSoc5LP： [i]int 主要 ()

發表于 01-24 08:31

FPGA發熱，如何更好的解決？

最近有個項目，使用FPGA去驅動一些光耦、LED等信號，由于一些信號是同時輸出的，導致FPGA的輸出電流比較大，想問一下如何處理？能否通過

發表于 01-08 22:26

使用賽靈思Alveo加速器卡加速DNN

電子發燒友網站提供《使用賽靈思Alveo加速器卡加速DNN.pdf》資料免費下載

發表于 09-18 09:27 ?0次下載

使用賽靈思Alveo加速器卡加速<b class='flag-5'>DNN</b>

FPGA在新興DNN推理領域的應用

電子發燒友網站提供《FPGA在新興DNN推理領域的應用.pdf》資料免費下載

發表于 09-15 10:52 ?0次下載

<b class='flag-5'>FPGA</b>在新興<b class='flag-5'>DNN</b>推理領域的應用

新興DNN推理領域的FPGA

電子發燒友網站提供《新興DNN推理領域的FPGA.pdf》資料免費下載

發表于 09-15 10:09 ?0次下載

新興<b class='flag-5'>DNN</b>推理領域的<b class='flag-5'>FPGA</b>

想往ROM中預存一些數據，需要怎么操作？

請問想往ROM中預存一些數據，需要怎么操作？沒有找到教程

發表于 08-11 10:36

#FPGA 給新手推薦一些FPGA上手項目

fpga

奔跑的小鑫

發布于 :2023年07月24日 08:54:52

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看

<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>