<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解決算力需求的主流方法?數據流架構讓AI芯片利用率提升10倍以上

Carol Li ? 來源:電子發燒友網 ? 作者:李彎彎 ? 2021-11-26 07:27 ? 次閱讀

電子發燒友網報道(文/李彎彎)現在各種應用場景對算力的需求越來越大,為了滿足需求,各廠商不斷提升AI芯片的峰值算力,而傳統指令集架構的芯片利用率卻難以提升,大多數在10-40%,這讓芯片的實測性能大打折扣,那么如何突破呢?

與指令集架構不同,數據流架構的顯著特點就是依托數據流的流動次序控制計算執行次序,而非指令執行次序,因此把它用在AI上可以讓芯片利用率大幅提升,芯片利用率直至逼近100%。

數據流架構如何提升芯片利用率

目前市場上的芯片主要有兩種架構形式:一種是大家熟知的指令集架構,主要包括X86架構、ARM架構、精簡指令集運算RISC-V開源架構,以及SIMD架構;另外一種就是數據流架構。

指令集架構采用馮諾依曼計算方式,通過指令執行次序控制計算順序,并通過分離數據搬運與數據計算提供計算通用性。數據流架構采用數據流引擎計算,它允許編譯器同時調度多個順序循環和功能,具有更高的吞吐量和更低的延遲,顯著特點是能夠大幅提升芯片利用率。

如下圖左側,指令集架構首先執行函數A,完成之后再執行函數B,依次類推直至執行完所有程序。下圖右側,在數據流架構的情形下,編譯器可以安排每個函數在數據可用時立即執行,這樣可以大大縮短等待和間隔的時間。

雖然數據流架構沒有指令集架構那么廣為人知,然而不可忽視的是,目前數據流架構已經在專用硬件中成功應用,比如數字信號處理、網絡路由、圖形處理、遙感檢測、以及數據庫處理等,在許多軟件體系結構中,包括數據庫引擎設計和并行計算框架,它也占據重要地位。

1994年,帝國理工學院教授、英國皇家工程院院士、鯤云科技聯合創始人和首席科學家Wayne Luk陸永青院士率先將數據流架構定制化并運用到AI領域。如今國內外對數據流技術的關注日益增多,包括國外的SambaNova、Groq、Wave computing,以及國內的鯤云科技。鯤云科技已經于去年量產了全球首款數據流AI芯片CAISA,脫胎于斯坦福大學的SambaNova,產品處于小規模試用階段,而前谷歌TPU核心團隊創辦的Groq,現在還未推出產品。

數據流架構如何提升芯片利用率?我們通過全球唯一量產數據流AI芯片的公司鯤云科技來看一下,鯤云的核心技術就是他們的定制數據流CAISA架構,這是一款為深度學習神經網絡定制的高性能AI計算架構。CAISA架構通過數據流流動次序來控制計算順序,消除指令操作導致的額外時間開銷,讓CNN網絡的算子級數據流圖可以實現高效流水線運算。同時CAISA可并行執行數據訪問和數據計算,進一步減少計算單元的空閑時間,最大化地利用芯片的計算資源,從而提供更高的實測算力。

圖片來自鯤云科技官網


鯤云科技合伙人、首席運營官王少軍博士在接受電子發燒友網采訪時表示,之所以投身于定制數據流架構芯片的研發,首先是鯤云科技有數據流架構技術研發基礎,公司創始團隊來自數據流技術的源頭實驗室,該實驗室是全球三大定制計算實驗室之一,從90年代開始就深耕數據流架構與不同領域的領域專用架構研發,具備深厚的研發和迭代積累。

其次更為重要的是底層芯片技術存在算力瓶頸,隨著摩爾定律發展,依靠摩爾定律提升芯片性能的成本越來越高,比如一款5nm芯片的研發成本就高達數億美元,針對特定領域實現領域專用架構的性能獲益會越來越高,直到大幅領先通用計算芯片,鯤云科技認為在算力猛增的時代,行業需要一顆高算力性價比的人工智能專用芯片,數據流架構的重大意義在于它突破了傳統芯片架構對芯片利用率的約束,最大化發揮芯片本身的峰值性能。

因此鯤云科技在早期數據流架構技術的積累下,針對人工智能領域開發出CAISA架構,并最終實現從0到1完成首顆數據流AI芯片量產。

鯤云CAISA芯片利用率高達95.4%

鯤云科技于去年6月正式量產了全球首款數據流AI芯片CAISA,芯片利用率達到95.4%,面向數據中心和邊緣端AI推斷應用,該芯片采用28nm工藝,這個制程并不高,不過因為芯片利用率高,即使在比較低的制程情況下,CAISA芯片也可以帶來很高的實測性能。

同時鯤云科技還基于CAISA芯片推出三款高性能計算平臺,包括面向邊緣端的星空X3加速卡、面向數據中心的星空X9加速卡、面向邊緣AI應用的星空X6A邊緣小站。星空X3加速卡面向8-16路視頻實時結構化分析,星空X6A邊緣小站面向8路視頻處理應用。

目前CAISA芯片及加速卡產品已在多領域實現應用,包括智慧安監、智能制造、智慧電力、智慧城市等。王少軍博士認為,對于這些場景,特別是國民生產支柱行業而言,“降本增效”是剛需,比如在油田的應用場景,傳統的安防監控系統已經比較成熟,端側的攝像頭監控系統基本部署完成,但視頻結構化利用率低,單純依靠人工巡檢,作業區域廣,環境復雜,耗時長,數據采集維度單一,人工識別難度大,而且預警不及時,漏報概率高,事后取證難。

針對這些行業痛點,鯤云科技提供算法算力平臺一體化方案,基于數據流AI芯片的底層算力優勢,以及算力和算法聯合優化的技術優勢,對現場接入的500路視頻進行數據處理,對漏油、安全帽、工服、抽煙、打電話、人員闖入和采油設備運行狀態進行識別,可以做到從視頻流獲取到輸出報警時間為1s,為油區的生產情況提供更可靠的安全保障。在油田智能化升級過程中,數據流AI芯片就凸顯出了其市場價值,可以充分利舊、快速部署、控制成本。

未來解決算力需求的主流方法

數據流AI芯片的商用落地,證實了數據流和深度學習融合的價值,王少軍博士認為數據流架構具備成為下一代計算平臺的潛力。他談到,在計算平臺的演進過程中,十倍核心性能指標的提升,是計算架構代際更替的主要指標,比如,從X86到RISC計算平臺,能效比提升了10倍以上;從X86到CUDA計算平臺,峰值算力也提升了超過10倍。

從歷史脈絡來看,相對上一代主流算力平臺,新的算力平臺在某個指標上需要高出10倍,才能實現實測性能的大幅提升,隨著摩爾定律的放緩,業界越來越關注下一代芯片應該如何發展,而底層架構創新是這幾年業界的共識,行業需要新的技術路線來實現底層算力的突破。

王少軍博士認為,下一代有望帶來10倍以上突破的指標就是芯片利用率,這可能是未來解決算力需求的主流方法,而數據流架構可以實現這一點,鯤云科技認為未來會有更多新興AI芯片廠商加入到數據流AI技術路線中。對于現有芯片廠商來說,技術路線的選擇是公司的一大核心戰略,而其已有的開發生態和技術積累使其很難轉換賽道,但有些玩家也看到了數據流技術的價值,比如英偉達就推出了TensorCore,在指令集架構的基礎上,該模塊采用了數據流技術的原理,來提升其在特定領域的芯片利用效率。

總結

整體來說,數據流架構可以大幅提升芯片利用率,鯤云定制數據流CAISA新芯片的量產商用,也證實了數據流與深度學習融合的價值,給AI帶來了一個新的技術研究方向,相信未來會有更多AI芯片廠商加入到數據流架構技術的研究中。

現在AI芯片在很多場景都有落地剛需,尤其在邊緣端,很多場景還存在“碎片化”需求,因此廠商除了考慮提升芯片利用率,做到更高算力性價比之外,還需要思考如何提升更通用、軟件易用性等,全面提升芯片性能,促進專用AI芯片規?;慨a,賦能各產業智能化升級。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 鯤云科技
    +關注

    關注

    0

    文章

    23

    瀏覽量

    3739
  • 算力
    +關注

    關注

    1

    文章

    706

    瀏覽量

    14407
收藏 人收藏

    評論

    相關推薦

    存內計算WTM2101編譯工具鏈 資料

    出來再進行計算,讀取時間與參數規模成正比,計算芯片的功耗和性能受限,GPU算利用率甚至不到8%。 存內計算芯片實現了存儲單元與計算單元的物理融合,沒有獨立的計算單元,直接通過在存儲器
    發表于 05-16 16:33

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    ,同時降低水消耗。利用NVIDIA Blackwell架構的高帶寬內存性能、NVLink-C2C和專用解壓縮引擎,GB200大幅提高關鍵數據庫查詢的速度,比CPU提升18
    發表于 05-13 17:16

    恒訊科技全面解析:如何有效降低服務器CPU利用率?

    降低服務器CPU利用率是一個涉及監控、診斷和優化的全面過程。以下是一些有效的方法: 1、監控CPU使用率: 使用工具如top, htop, vmstat, 或 iostat實時監控CPU使用情況
    的頭像 發表于 05-10 17:24 ?232次閱讀

    臺積電晶圓廠產能利用率將全面提高

    消息來源表示,TSMC 8英寸及12英寸晶圓工廠的利用率已分別回升至70-80%和80%。尤其值得注意的是,28納米制程的利用率已重返80%的常態范圍;而7/6納米與5/4納米制程的利用率更分別達到75%以及接近飽和狀態。
    的頭像 發表于 01-17 13:56 ?302次閱讀

    產能利用率降至四成!電池行業迎深度洗牌

    據統計,我國電池生產的平均產能利用率低于50%,即便是龍頭企業寧德時代上半年產能利用率也降至60.5%,三季度也僅回升至70%以上,仍處于歷史較低水平。
    的頭像 發表于 12-28 17:16 ?491次閱讀

    產能利用率低迷,傳臺積電7nm將降價10%!

    早在今年10月的法說會上,臺積電總裁魏哲家就曾被外資當面詢問7nm產能利用率不斷下滑的問題,臺積電7nm在總營收當中的占比持續滑落,從第二季度的23%降至了第三季度17%,相比去年同期的26%更是下跌了近10個百分點。
    的頭像 發表于 12-04 17:16 ?526次閱讀

    SPWM與SVPWM—調制比與電壓利用率

    學習調制方法時,**調制比**與**電壓利用率**是個重要的概念。我發現教材中卻對這兩個內容介紹的很模糊,網上也沒有很多包含具體推導過程的公式。
    的頭像 發表于 12-01 17:04 ?8771次閱讀
    SPWM與SVPWM—調制比與電壓<b class='flag-5'>利用率</b>

    全球晶圓廠利用率,將降至67%

    盡管情況有所改善,但芯片制造指標仍然疲軟,預計 2023 年第四季度晶圓廠利用率將降至 67%,部分原因是庫存消耗增加了銷售額。因此,預計 2023 年下半年資本支出將下降。
    的頭像 發表于 11-15 17:08 ?486次閱讀
    全球晶圓廠<b class='flag-5'>利用率</b>,將降至67%

    晶圓代工產能利用率下降,降價大戰一觸即發

    晶圓代工行業正面臨產能利用率的重大挑戰,據悉,聯電、世界先進和力積電等主要代工廠紛紛降低明年首季的報價,幅度高達兩位數百分比,項目客戶降幅更高達15%至20%,各大晶圓代工廠深陷產能利用率六成保衛戰。
    的頭像 發表于 11-13 17:17 ?606次閱讀

    利用率達到100%的SVPWM控制算法介紹

    在Part4中得到SPWM在理想情況下調制比為1,直流電壓利用率為0.866即86.6%,電壓利用率也不高,還有13.4%的母線電壓沒有利用到。
    的頭像 發表于 10-18 15:01 ?2895次閱讀
    <b class='flag-5'>利用率</b>達到100%的SVPWM控制算法介紹

    SPWM直流電壓利用率之過調制

    本文學習介紹前面幾部分還未解決的重要問題提高直流電壓利用率之過調制。
    的頭像 發表于 10-18 12:49 ?2302次閱讀
    SPWM直流電壓<b class='flag-5'>利用率</b>之過調制

    AI加速器架構設計與實現》+第2章的閱讀概括

    和內部數據的搬運 Memory, Conv, Pool, Activation, 對比了筒形數據流結構和星形數據流結構![] 上面兩張圖展示了NVDLA和TPU的數據流的設計 2.2
    發表于 09-17 16:39

    頻分復用可以提高通信線路的利用率?

    頻分復用可以提高通信線路的利用率?? 頻分復用,英文名為Frequency Division Multiplexing(FDM), 是一種多路復用技術,它可以將多個低速信號合成成一個高速信號進行傳輸
    的頭像 發表于 09-01 15:38 ?949次閱讀

    GPU利用率低的本質原因

    最近經常有同學反饋 GPU 利用率低,嚴重浪費 GPU 資源的問題,經過對一些實例分析后,借著這篇文檔和大家分享一下解決方案,希望能對使用 GPU 的同學有些幫助。 一、GPU 利用率的定義 本文
    的頭像 發表于 06-19 14:07 ?747次閱讀
    GPU<b class='flag-5'>利用率</b>低的本質原因

    常見GPU利用率低原因分析

    GPU 任務會交替的使用 CPU 和 GPU 進行計算,當 CPU 計算成為瓶頸時,就會出現 GPU 等待的問題,GPU 空跑那利用率就低了。
    發表于 06-19 12:22 ?1056次閱讀
    常見GPU<b class='flag-5'>利用率</b>低原因分析
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>