<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

FPGA芯片用于神經網絡算法優化的設計實現方案

前言

AI 芯片（這里只談FPGA芯片用于神經網絡加速）的優化主要有三個方面：算法優化，編譯器優化以及硬件優化。算法優化減少的是神經網絡的算力，它確定了神經網絡部署實現效率的上限。編譯器優化和硬件優化在確定了算力的基礎上，盡量最大化硬件的計算和帶寬性能。經歷了一年多的理論學習，開始第一次神經網絡算法優化的嘗試。之所以從一個FPGA開發者轉向算法的學習，有幾個原因：

第一是神經網絡在AI芯片上的部署離不開算法的優化。一個浮點數的計算（加法或者乘法）和定點數的計算消耗的資源差距很大，對于FPGA這樣邏輯資源有限的芯片而言，定點計算更加友好，而且能夠提升幾倍于浮點計算的性能。

第二是神經網絡量化壓縮需要密切的結合FPGA硬件的特點，需要考慮到FPGA的存儲資源，計算符號是否能夠被FPGA友好的實現等。在AI加速器項目中，算法和FPGA都有各自的開發者，FPGA會對算法組提出要求，比如激活函數量化，normalization如何做等，然后算法組在這些特定要求下去進行算法優化。如果一個人對FPGA和算法都比較熟悉的話，那么就會更容易發現算法優化的點。

第三是FPGA開發方式的趨勢是多樣化。使用RTL語言仍然是主要的開發方法，需要一個人有一定的數字電路基礎。這種開發方式最底層，所以最靈活，可以更好的去調優。但是同時，FPGA一直渴望去突破固有的開發方式，讓一個不懂得硬件的軟件開發人員也可以很容易的上手，同時能夠縮短開發周期，比如HLS。我相信，隨著HLS的發展和FPGA芯片的演進，使用這種方式的開發者會越來越多。在那些算法復雜，更新較快的項目中，HLS更有優勢，而在一些對資源，時序，功耗要求更高的項目中，RTL更有優勢。當硬件平臺逐漸軟件化后，必然會對FPGA開發者的算法能力提出更高的要求。

Transformer網絡結構

Google在《Attention is all your need》的文章中，提出了使用全attention結構替代LSTM的transformer模型，在翻譯任務上取得了更好的成績。這個網絡結構計算量大，計算符號相對簡單，有一定的應用，所以適合用于網絡加速的展示。結構整體模型如下：

1 embedding

包含了input和output的embedding層，完成詞匯到網絡輸入向量的轉化，embedding的矩陣大小取決于詞匯量的多少，對于翻譯來講，通常都是巨大的，所以其不適合放在FPGA上進行加速，沒有量化的必要。Input和output以及softmax前的linear層都共享相同的參數，這樣做的目的，是因為共享input和output權重能夠降低word level perplexity，當然也降低了參數存儲量。最后的linear使用embedding的權重是為了將網絡向量轉化為詞語出現的logits。

2 positional encoding

Transformer是沒有循環網絡，為了獲取詞匯位置關系信息，對詞匯進行位置編碼。其實就是給每個詞匯加上位置偏移，位置偏移函數選擇了sin和cos函數：

Pos是詞匯位置，i是詞匯向量的維度位置。

3 encoder

由多層的multi-head attention和linear組成，multi-headattention和linear之間由norm和add，add是一個residual連接。

Multi-head attention結構如下：

Q，K，V分別是query，key和value，這是attention機制中抽象出來的三個重要變量，通過計算q和k的相似度，得到每個k對應的v的權重系數，然后對value進行加權求和就得到了attention值。這個是attention機制的本質思想。Transformer中使用softmax函數來描述相似度，當然還有很多其它方法來描述。

這里添加了一個scale1/squart(dk)，這其實是一個參數的調節，防止矩陣乘法得到結果太大而導致softmax函數的梯度太小。

這里還要注意transformer網絡沒有對Q，K，V直接進行單一的attention計算，而是對這三個變量進行了拆分，平行計算拆分后的變量，得到的attention值最后在拼接在一起。

4 decoder

Decoder和encoder也有類似的結構，不同的是，在decoder中由三層：mask-multi-head attention，multi-head attention以及FC構成。帶mask的multi-head是為了屏蔽target句子詞之后的詞，因為對句子的翻譯應該是由前向后進行的，后邊的詞語不應該出現在前邊詞語的預測之中。

量化方法

量化實際是一個仿射變換：

其中s是scale，q是量化后的數據，z是偏移，如果采用對稱變換，令z為0，那么就有：

去除中心z，可以消除矩陣計算中的交叉項。接下來就是如何獲得q和s。q和s通過如下方式獲得：

Clip操作是在最小值n和最大值p之間獲得x/s的向下整數值，如果x/s向下整數值超過n或者p就取n和p。

S的值通過訓練獲得，為了保證能夠很好的在FPGA上計算，s的值最好可以取得2的冪次。

由于s和x都是需要訓練的參數，所以我們需要求得他們的梯度值，梯度值比較簡單，對q(x, s)的x和x進行求導，有：

對x的梯度使用的是hinton提出的strait-through estimator，這樣做是因為可以消除量化引入的噪聲，更快的訓練。

實踐

transformer中有dense，matmul等操作，需要量化的數據有dense中的權重，matmul中的Q，V，K變量。第一次沒有什么經驗，還是一點點來。首先選擇其中一個dense進行量化。從github上下載了一個transformer的實現源碼https://github.com/Kyubyong/transformer，這個代碼寫的很簡潔，容易看懂。官方的實現代碼比較復雜，需要安裝的庫較多，曾經也嘗試過，因為某些庫無法安裝成功，所以放棄了。在使用Kyubyong的transformer的時候，也遇到了一個問題，訓練可以完成，但是在eval的時候，報了維度的錯誤，后來找到是在positional encoding的embedding中，經過查找，源碼中存在一個bug，就是eval的數據集的maxlen是設置了10000，但是在embedding中傳入的查找表維度是從hparams傳入的，兩者不相同。不知道作者為什么會有這個bug。經過改正可以正常完成eval了。

量化第一步是需要將量化插入到tensorflow的圖結構中，即在要量化的權重數據之后。這需要重新定義op和梯度，tensorflow中提供了tf.custom_gradient裝飾函數來對梯度和op進行定義，所以我定義了如下梯度：

其中STE_clip中的y計算了對x的量化值，grad函數是對x和s進行梯度計算。X和s分別是傳入的(d, d)權重和scale。dy是傳入的上一個節點的梯度，所以完成和STE_cllip節點梯度的乘積，這是由函數梯度計算的傳遞性質決定的。這里需要注意的是，s是一個標量，q(x,s)對s梯度是一個矩陣向量，需要和dy進行點積和。

在tensorflow圖構建中，將這個節點插入如下：

這里還添加了tf.print用于打印量化后的數據。

語法錯誤修正：

1 定義的custom_gradient函數中報NoneType object is not iterable，因為函數沒有返回值，默認返回none。

2 TypeError: Input 'e' of 'Select' Op has type float32 that does not match type int32 of argument 't'. 因為使用tf.greater(x, y)x和y應該有相同數據類型。

3 ValueError: Shapes must be equal rank，tf.greater中數據必須具有相同的rank，即維度。

4 ValueError: Shape must be rank 1 but is rank 2，tf.tile(x, axis)中x必須是具有維度的，不能夠是0維。

5 ValueError: Shape must be rank 2 but is rank 3，tf.matmul中兩個矩陣維度必須相同。

6 TypeError: Failed to convert object of type to Tensor. Contents: [None]. Consider casting elements to a supported type。使用tf.tile的時候，shape必須為tensor量。

7 TypeError: Expected int32, got None of type '_Message' instead. 這是因為輸入為[N, T, d_model]，其中N開始是none的，所以當使用tf.constant([N,1,1])的時候就會出現錯誤，因為N是none類型。

8 Incompatible shapes between op input and calculated input gradient。輸入的數據和對該輸入數據的梯度維度不一致。

9 使用tf.print無法打印出數據。這是因為print是tensorflow中的一個節點，需要將這個節點加入圖中，然后才能輸出。而且只有計算流經這個print節點，其才會發揮作用。形象的描述應該是：

功能問題：

1 首先就是發現在訓練過程中scale和量化數據都沒有更新，一直保持不變，而且量化值和權重數據以及scale計算的數據不相同。目前還在查找當中。

引用文獻

1 Learning Accurate Integer Transformer Machine-Translation Models，Ephrem Wu

2 Trained uniform quantization for accurate and efficient neural network inference on fixedpoint hardware，Sambhav R. Jain, Albert Gural, Michael Wu, and Chris Dick

3 Attention Is All You Need，Ashish Vaswani，Noam Shazeer，Niki Parmar

4 Quantized Neural Networks: Training Neural Networks with Low Precision Weights and Activations，Itay Hubara，Matthieu Courbariaux，Daniel Soudry

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

FPGA

FPGA

+關注

關注
1604

文章
21337

瀏覽量
594006
神經網絡

神經網絡

+關注

關注
42

文章
4582

瀏覽量
99067
算法優化

算法優化

+關注

關注
0

文章
4

瀏覽量
6236
AI芯片

AI芯片

+關注

關注
17

文章
1681

瀏覽量
34467

評論

相關推薦

神經網絡算法怎么去控制溫控系統，為什么不用PID控制？

神經網絡算法怎么去控制溫控系統，為什么不用pid控制

發表于 10-27 06:10

基于FPGA的RBF神經網絡的硬件實現

電子發燒友網站提供《基于FPGA的RBF神經網絡的硬件實現.pdf》資料免費下載

發表于 10-23 10:21 ?0次下載

基于<b class='flag-5'>FPGA</b>的RBF<b class='flag-5'>神經網絡</b>的硬件<b class='flag-5'>實現</b>

《 AI加速器架構設計與實現》+第一章卷積神經網絡觀后感

對應的神經網絡有哪些，也看到了自己在k210中用到的FAST RCNN和RestNet18分類網絡，需要保證硬件實現和算法一致，這樣才事半功倍，否則，可能會差別比較大。對于

發表于 09-11 20:34

構建神經網絡模型的常用方法神經網絡模型的常用算法介紹

神經網絡模型是一種通過模擬生物神經元間相互作用的方式實現信息處理和學習的計算機模型。它能夠對輸入數據進行分類、回歸、預測和聚類等任務，已經廣泛應用于計算機視覺、自然語言處理、語音處理等

發表于 08-28 18:25 ?689次閱讀

cnn卷積神經網絡算法 cnn卷積神經網絡模型

cnn卷積神經網絡算法 cnn卷積神經網絡模型卷積神經網絡(CNN)是一種特殊的神經網絡，具有很強的圖像識別和數據分類能力。它通過學習權重

的頭像

發表于 08-21 17:15 ?1262次閱讀

卷積神經網絡和深度神經網絡的優缺點卷積神經網絡和深度神經網絡的區別

深度神經網絡是一種基于神經網絡的機器學習算法，其主要特點是由多層神經元構成，可以根據數據自動調整神經元之間的權重，從而

發表于 08-21 17:07 ?2557次閱讀

卷積神經網絡算法流程卷積神經網絡模型工作流程

卷積神經網絡算法流程卷積神經網絡模型工作流程? 卷積神經網絡（Convolutional Neural Network，CNN）是一種廣泛應用于

發表于 08-21 16:50 ?1729次閱讀

卷積神經網絡算法代碼matlab

卷積神經網絡算法代碼matlab 卷積神經網絡（Convolutional Neural Network，CNN）是一種深度學習網絡模型，其特點是具有卷積層（Convolutional

發表于 08-21 16:50 ?848次閱讀

卷積神經網絡算法有哪些？

算法。它在圖像識別、語音識別和自然語言處理等領域有著廣泛的應用，成為近年來最為熱門的人工智能算法之一。CNN基于卷積運算和池化操作，可以對圖像進行有損壓縮、提取特征，有效降低輸入數據的維度，從而實現對大量數據的處理和分析。下面是

發表于 08-21 16:50 ?1207次閱讀

卷積神經網絡算法原理

卷積神經網絡算法原理? 卷積神經網絡（Convolutional Neural Network，CNN）是一種深度學習（Deep Learning）的模型，它能夠自動地從圖片、音頻、文本等數據中提

發表于 08-21 16:49 ?800次閱讀

卷積神經網絡算法比其他算法好嗎

卷積神經網絡算法比其他算法好嗎卷積神經網絡（Convolutional Neural Networks, CNN）是一種用于圖像識別和處理

發表于 08-21 16:49 ?470次閱讀

卷積神經網絡算法是機器算法嗎

卷積神經網絡算法是機器算法嗎? 卷積神經網絡算法是機器算法的一種，它通常被

發表于 08-21 16:49 ?550次閱讀

卷積神經網絡的介紹什么是卷積神經網絡算法

卷積神經網絡的介紹什么是卷積神經網絡算法卷積神經網絡涉及的關鍵技術卷積神經網絡（Convolutional Neural Networ

發表于 08-21 16:49 ?1478次閱讀

卷積神經網絡原理：卷積神經網絡模型和卷積神經網絡算法

卷積神經網絡原理：卷積神經網絡模型和卷積神經網絡算法卷積神經網絡（Convolutional Neural Network，CNN）是一種

發表于 08-17 16:30 ?973次閱讀

基于粒神經網絡與遺傳算法優化的人臉識別算法

　　摘要：針對非限條件下人臉識別準確率較低的問題，提出一種基于粒神經網絡（MNN）與遺傳算法優化的人臉識別算法。對人臉庫進行初始化分析決定每個粒子中人臉的分布，將同一復雜度級別的數據分

發表于 07-20 15:38 ?0次下載

精選推薦
更多

文章

資料

帖子

康謀產品 | 車載以太網：智能汽車通信的加速器

康謀自動駕駛
17小時前

358 閱讀

多調制信號解調應用（一）：使用K70M選件對多調制信號進行解調

羅德與施瓦茨中國
16小時前

273 閱讀

鴻蒙OS開發：【一次開發，多端部署】（應用UX設計原則）

jf_46214456
16小時前

257 閱讀

關于MOS管，你需要知道的那些事

仁懋電子
1天前

394 閱讀

仁懋MOSFET：為房車儲能系統注入強勁動力

仁懋電子
1天前

356 閱讀

用于Infiniium 9000系列示波器的RS-232/U

路過秋天
1014

免費

18下載

使用ZXing進行解碼的HarmonyOS條碼掃描庫

姚小熊27
0.25 MB

免費

5下載

Coplay同步視頻播放

張波
0.36 MB

免費

1下載

使用 CMOS 雙單穩態多諧振蕩器

鄒倆珍
390.08KB

免費

3下載

三顆LED低壓并聯照明電路LOWVOLTAGEP2SGEVB評估套件數據手冊

1.14 MB

免費

0下載

【紫光同創盤古PGX-MINI-4K教程】——（盤古PGX-MINI-4K開發板/PGC4KD-6ILPG144第五章）序列檢測器實驗例程

yonglong11
1天前

185 閱讀

ICCVR建立工程運行有問題

chenbingjy
1天前

428 閱讀

交流110V日本無刷電機

jf_43330017
2天前

545 閱讀

關于 TPS56339 降壓芯片的EN管腳的疑惑

jf_39880977
1天前

294 閱讀

全志R128 SDK HAL 模塊開發指南之 MSGBOX

文小二
1天前

313 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看