電子發燒友網報道(文/李彎彎)現在各種應用場景對算力的需求越來越大,為了滿足需求,各廠商不斷提升AI芯片的峰值算力,而傳統指令集架構的芯片利用率卻難以提升,大多數在10-40%,這讓芯片的實測性能大打折扣,那么如何突破呢?
與指令集架構不同,數據流架構的顯著特點就是依托數據流的流動次序控制計算執行次序,而非指令執行次序,因此把它用在AI上可以讓芯片利用率大幅提升,芯片利用率直至逼近100%。
數據流架構如何提升芯片利用率
目前市場上的芯片主要有兩種架構形式:一種是大家熟知的指令集架構,主要包括X86架構、ARM架構、精簡指令集運算RISC-V開源架構,以及SIMD架構;另外一種就是數據流架構。
指令集架構采用馮諾依曼計算方式,通過指令執行次序控制計算順序,并通過分離數據搬運與數據計算提供計算通用性。數據流架構采用數據流引擎計算,它允許編譯器同時調度多個順序循環和功能,具有更高的吞吐量和更低的延遲,顯著特點是能夠大幅提升芯片利用率。
如下圖左側,指令集架構首先執行函數A,完成之后再執行函數B,依次類推直至執行完所有程序。下圖右側,在數據流架構的情形下,編譯器可以安排每個函數在數據可用時立即執行,這樣可以大大縮短等待和間隔的時間。
雖然數據流架構沒有指令集架構那么廣為人知,然而不可忽視的是,目前數據流架構已經在專用硬件中成功應用,比如數字信號處理、網絡路由、圖形處理、遙感檢測、以及數據庫處理等,在許多軟件體系結構中,包括數據庫引擎設計和并行計算框架,它也占據重要地位。
1994年,帝國理工學院教授、英國皇家工程院院士、鯤云科技聯合創始人和首席科學家Wayne Luk陸永青院士率先將數據流架構定制化并運用到AI領域。如今國內外對數據流技術的關注日益增多,包括國外的SambaNova、Groq、Wave computing,以及國內的鯤云科技。鯤云科技已經于去年量產了全球首款數據流AI芯片CAISA,脫胎于斯坦福大學的SambaNova,產品處于小規模試用階段,而前谷歌TPU核心團隊創辦的Groq,現在還未推出產品。
數據流架構如何提升芯片利用率?我們通過全球唯一量產數據流AI芯片的公司鯤云科技來看一下,鯤云的核心技術就是他們的定制數據流CAISA架構,這是一款為深度學習神經網絡定制的高性能AI計算架構。CAISA架構通過數據流流動次序來控制計算順序,消除指令操作導致的額外時間開銷,讓CNN網絡的算子級數據流圖可以實現高效流水線運算。同時CAISA可并行執行數據訪問和數據計算,進一步減少計算單元的空閑時間,最大化地利用芯片的計算資源,從而提供更高的實測算力。
圖片來自鯤云科技官網
鯤云科技合伙人、首席運營官王少軍博士在接受電子發燒友網采訪時表示,之所以投身于定制數據流架構芯片的研發,首先是鯤云科技有數據流架構技術研發基礎,公司創始團隊來自數據流技術的源頭實驗室,該實驗室是全球三大定制計算實驗室之一,從90年代開始就深耕數據流架構與不同領域的領域專用架構研發,具備深厚的研發和迭代積累。
其次更為重要的是底層芯片技術存在算力瓶頸,隨著摩爾定律發展,依靠摩爾定律提升芯片性能的成本越來越高,比如一款5nm芯片的研發成本就高達數億美元,針對特定領域實現領域專用架構的性能獲益會越來越高,直到大幅領先通用計算芯片,鯤云科技認為在算力猛增的時代,行業需要一顆高算力性價比的人工智能專用芯片,數據流架構的重大意義在于它突破了傳統芯片架構對芯片利用率的約束,最大化發揮芯片本身的峰值性能。
因此鯤云科技在早期數據流架構技術的積累下,針對人工智能領域開發出CAISA架構,并最終實現從0到1完成首顆數據流AI芯片量產。
鯤云CAISA芯片利用率高達95.4%
鯤云科技于去年6月正式量產了全球首款數據流AI芯片CAISA,芯片利用率達到95.4%,面向數據中心和邊緣端AI推斷應用,該芯片采用28nm工藝,這個制程并不高,不過因為芯片利用率高,即使在比較低的制程情況下,CAISA芯片也可以帶來很高的實測性能。
同時鯤云科技還基于CAISA芯片推出三款高性能計算平臺,包括面向邊緣端的星空X3加速卡、面向數據中心的星空X9加速卡、面向邊緣AI應用的星空X6A邊緣小站。星空X3加速卡面向8-16路視頻實時結構化分析,星空X6A邊緣小站面向8路視頻處理應用。
目前CAISA芯片及加速卡產品已在多領域實現應用,包括智慧安監、智能制造、智慧電力、智慧城市等。王少軍博士認為,對于這些場景,特別是國民生產支柱行業而言,“降本增效”是剛需,比如在油田的應用場景,傳統的安防監控系統已經比較成熟,端側的攝像頭監控系統基本部署完成,但視頻結構化利用率低,單純依靠人工巡檢,作業區域廣,環境復雜,耗時長,數據采集維度單一,人工識別難度大,而且預警不及時,漏報概率高,事后取證難。
針對這些行業痛點,鯤云科技提供算法算力平臺一體化方案,基于數據流AI芯片的底層算力優勢,以及算力和算法聯合優化的技術優勢,對現場接入的500路視頻進行數據處理,對漏油、安全帽、工服、抽煙、打電話、人員闖入和采油設備運行狀態進行識別,可以做到從視頻流獲取到輸出報警時間為1s,為油區的生產情況提供更可靠的安全保障。在油田智能化升級過程中,數據流AI芯片就凸顯出了其市場價值,可以充分利舊、快速部署、控制成本。
未來解決算力需求的主流方法
數據流AI芯片的商用落地,證實了數據流和深度學習融合的價值,王少軍博士認為數據流架構具備成為下一代計算平臺的潛力。他談到,在計算平臺的演進過程中,十倍核心性能指標的提升,是計算架構代際更替的主要指標,比如,從X86到RISC計算平臺,能效比提升了10倍以上;從X86到CUDA計算平臺,峰值算力也提升了超過10倍。
從歷史脈絡來看,相對上一代主流算力平臺,新的算力平臺在某個指標上需要高出10倍,才能實現實測性能的大幅提升,隨著摩爾定律的放緩,業界越來越關注下一代芯片應該如何發展,而底層架構創新是這幾年業界的共識,行業需要新的技術路線來實現底層算力的突破。
王少軍博士認為,下一代有望帶來10倍以上突破的指標就是芯片利用率,這可能是未來解決算力需求的主流方法,而數據流架構可以實現這一點,鯤云科技認為未來會有更多新興AI芯片廠商加入到數據流AI技術路線中。對于現有芯片廠商來說,技術路線的選擇是公司的一大核心戰略,而其已有的開發生態和技術積累使其很難轉換賽道,但有些玩家也看到了數據流技術的價值,比如英偉達就推出了TensorCore,在指令集架構的基礎上,該模塊采用了數據流技術的原理,來提升其在特定領域的芯片利用效率。
總結
整體來說,數據流架構可以大幅提升芯片利用率,鯤云定制數據流CAISA新芯片的量產商用,也證實了數據流與深度學習融合的價值,給AI帶來了一個新的技術研究方向,相信未來會有更多AI芯片廠商加入到數據流架構技術的研究中。
現在AI芯片在很多場景都有落地剛需,尤其在邊緣端,很多場景還存在“碎片化”需求,因此廠商除了考慮提升芯片利用率,做到更高算力性價比之外,還需要思考如何提升更通用、軟件易用性等,全面提升芯片性能,促進專用AI芯片規?;慨a,賦能各產業智能化升級。
-
鯤云科技
+關注
關注
0文章
23瀏覽量
3739 -
算力
+關注
關注
1文章
706瀏覽量
14407
發布評論請先 登錄
相關推薦
評論