<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

存算一體芯片的技術壁壘

后摩智能 ? 來源:后摩智能 ? 2023-09-22 14:16 ? 次閱讀

作為后摩爾時代發展的必然趨勢之一,存算一體越來越受到行業的關注。在存算十問的前六問中,我們梳理了存算一體的技術路線、挑戰和通用性等問題,這一次我們從技術的壁壘入手,邀請后摩智能的幾位研發人員來談談,從學術到商用,存算一體的技術壁壘體現在哪里,后摩智能又是如何從IP、電路設計、架構設計等層面突破技術難題,形成自己獨有的技術壁壘。

Q1存算一體芯片是一個壁壘比較高的技術方向嗎?它的壁壘體現在哪些方面?

存算一體芯片是技術壁壘很高的一個方向。從芯片底層到軟件劃分的話,主要體現在以下幾個方面:

(1)CIM的基本運算單元(即MACRO)的設計是第一個難點。作為存算一體芯片的基石,存內計算IP的功能和性能直接影響存算一體芯片的整體表現。存內計算IP依托的存儲介質和所采用的計算范式繁多且呈“百花齊放”。

以SRAM CIM MACRO為例,因為需要修改存儲陣列以加入計算的邏輯單元、支持“存儲-計算”雙工作模 式,并且在滿足計算性能的同時還需要保證陣列的規整性來優化面積效率、保證陣列的可靠性、可測試性等。需要SRAM專家針對性的進行設計。值得強調的是,當前的EDA工具不支持設計流程,必須自主設計相應的EDA工具來配合整個過程,包括margin, aging, EMIR, PPA的分析、Sign-off、PI/S等工具。

(2)當完成CIM MACRO設計后,需要將大量的MACRO高效的組織在一起來處理形式多樣的Tensor運算,同時配合一定的通用算力來滿足各種長尾算子(通常指計算量較小的非Tensor算子)的處理能力。這里涉及到多個MACRO之間的數據流組織方式,即如何將一個Tensor的運算分配到多個MACRO協同處理,完成這個目標需要精心進行架構設計,并且通常需要一個高效的片上網絡(NoC)來支持。

另外,通常需要在芯片內配置大容量的SRAM來減少片外DRAM的訪存需求,如何組織SRAM,并且配合上述計算流程,也是一個重要的設計內容。

(3)存算一體AI核和SoC的架構設計和實現:存內計算IP提供了高能效的并行計算模式,但同樣受限于其支持運算類型的局限性,因而對于存算一體AI核和SoC的架構設計的難度和復雜度要求急劇上升,既要充分利用存內計算IP本身運算的高效性,又要減少存內計算IP之間的數據傳輸,同時還要兼顧支持網絡算子的通用性和物理實現的可行性。

(4)存算一體軟件編譯器的快速部署和實現:軟件工具鏈對于發揮存算芯片的效率也至關重要。軟件需要將模型切分成合適的Tensor算子,然后生成相應的指令調用底層硬件來處理。

在后端算子性能優化時,需要打破算子的邊界,要解決層間流水,多模型流水并行,結合存算架構的特點完成優化。業界有很多開源框架的 IR 可以參考,像 MLIR 和 TVM 的 Relay 和 TIR,這些開源的 IR 無法很好地處理上述優化需求,我們根據存算架構 AI Core 的特點,設計了一層 IR ,更好地解決了數據流分析、數據依賴分析,可以更方便地進行層間調度和切分等優化。

同時,對于自動駕駛等場景,通過算子融合來提升計算和訪存效率是非常關鍵的一個優化目標,需要工具鏈自動化的完成算子的融合、調度及對大容量SRAM的高效管理,以同時提升芯片的利用率和應用的開發效率等。

Q2相較于傳統的芯片電路設計,后摩智能的存算電路架構設計和電路設計有何特殊性和優點?

(1)電路方面:自主設計的定制CIM MACRO,包括定制的乘法單元、加法樹、讀寫電路、累加器等,進一步拉近計算和存儲的距離顯著提升性能和能效,通過SRAM單元替代寄存器實現更高的計算密度、更低的讀寫功耗。相比傳統電路設計面效提升2倍左右、能效提升一個量級左右;

(2)架構:層次化的架構設計,將大量MACRO有效組織在一起;CIM MACRO負責Tensor計算,自主設計的RISC-V Vector擴展架構配合定制的SFU負責長尾算子處理,同時滿足處理效率和通用性的需求;定制化的NoC,滿足多個MACRO和SRAM之間的數據通信需求等

后摩智能的存算電路主要采用了基于全數字域的存算路徑,通過對存儲單元和計算單元的深度定制來實現高能效的計算目的,從而減少訪存開銷,打破存儲墻瓶頸,這種從SPEC到signoff的全定制化流程研發周期長,且對于研發迭代效率要求極高。

同時,還需要兼顧大規模量產和車規需求,開發特有的CIM BIST和硬件修復電路,保障芯片良率和車規認證。

Q3后摩智能自研的芯片IPU架構,從一代到二代的天樞、天璣,相對于傳統架構的優點和創新之處是什么?

86c4da3e-590c-11ee-939d-92fbcf53809c.png

這張圖就是我們已經推出的H30芯片天樞架構IPU圖。

我們的芯片里有4個IPU核,都掛在系統總線NoC上。這4個核是完全一樣的設計。對于每一個Core,又由4個Tile組成,每個Tile就對應了一個硬件線程,它們可以獨立進行不同的計算,也可以聯合起來做同一個計算。

每個Tile內部有CPU、Tensor Engine,Special Function Unit,Vector Processor和多通道DMA,這些計算單元可以直接共享一個多Bank的共享存儲資源。這樣的架構使得AI計算不但不用在多個處理器,例如CPU,GPU,DSP之間分配任務,甚至數據不用出AI核,就可以高效的完成全部端到端的AI計算。

這個架構里還有一個重要的部分就是數據的傳輸。就像我們人和人之間需要更好的溝通一樣,我們的計算單元之間,也需要很好的共享數據和消息。

我們設計了專用的數據傳輸總線,可以靈活的在各個Tile,以及各個Core之間建立高速的直接的數據傳輸通道,而不需要通過系統總線和緩存。

CIM macro有計算形式單一、需求輸入數據整齊、沒有累加器等缺點。第一代天樞架構為這些功能上的缺點做了相應的補充,使得CIM macro能夠真正的應用在大規模AI計算中,而不只停留在paper上;另一方面,將CIM macro用于工程上,有BIST,yield,PI/SI等問題需要摸索解決,第一代架構也在這方面做了規劃和適配。

我們下一代的天璇架構IPU設計理念將會是:基于Mesh互聯的AI cluster。采用Mesh的互聯結構,可以將計算單元的數量靈活的配置成M行N列,根據場景需求,AI算力規??纱罂尚?。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    447

    文章

    48042

    瀏覽量

    410471
  • sram
    +關注

    關注

    6

    文章

    747

    瀏覽量

    113987
  • AI
    AI
    +關注

    關注

    87

    文章

    26736

    瀏覽量

    264407
  • 存算一體
    +關注

    關注

    0

    文章

    95

    瀏覽量

    4153
收藏 人收藏

    評論

    相關推薦

    科技助力AI應用落地:WTMDK2101-ZT1評估板實地評測與性能揭秘

    的挑戰。通過對知科技WTM2101量產芯片的深入解析與評測,重點展示內計算芯片的電路結構及其應用現狀。最后,將對
    發表于 05-16 16:38

    什么是一體成型電感#硬聲創作季

    一體成型電感
    小魚教你模數電
    發布于 :2023年04月21日 06:54:55

    一體技術發展現狀和未來趨勢

    一體
    電子發燒友網官方
    發布于 :2023年04月25日 17:21:41

    揚宇光電人臉測溫一體

    一體
    jf_22764069
    發布于 :2023年06月27日 14:36:57

    國產化一體

    一體
    jf_22764069
    發布于 :2023年06月27日 14:38:48

    21.5寸安卓工業一體機 嵌入式工控一體機 微嵌工業平板電腦廠家

    一體
    jf_91874718
    發布于 :2023年07月05日 16:44:25

    #清華 #芯片 #一體化 清華研制出全球首顆一體芯片

    芯片
    深圳市浮思特科技有限公司
    發布于 :2023年10月10日 18:03:59

    什么是機電一體

    機電一體化http://www.gooxian.com/article/show-1823.htm就是“利用電子、信息(包括傳感器、控制、計算機等)技術使機械柔性化和智能化”的技術1) 術語的來源
    發表于 08-29 09:06

    VR一體技術的關鍵技術

    .引言上篇文章,博主給大家分享了VR一體技術的發展歷程和現狀,本文接著給大家介紹VR一體機(All In One)涉及到的關鍵
    發表于 09-21 10:51

    電磁兼容是必須突破的技術壁壘

    個傳導干擾就令70%的國產PC步入不合格產品行列,而傳導干擾只是電子產品電磁兼容的個指標。電磁兼容已經成為制約我國電子產品出口的技術壁壘。 電磁傳導——曾令70%的中小企業
    發表于 07-24 06:44

    文獻調研——一體些基礎知識 精選資料分享

    SSD課程背景知識學習主要包含:Part 1 一體的相關概念Part 2 SSD基本結構、Why人工智能芯片:邊緣市場-終端推理手機,
    發表于 07-23 06:51

    基于雙TDA4VM行泊一體方案

    ,不再是專業人士的紙上談兵。當前,整車的電子電氣架構由分布式向集中式演進的過程中,泊車功能和行車功能融合,出現了越來越多的行泊一體技術方案即智能駕駛域控制器方案。多芯片的行泊一體化方案
    發表于 11-03 07:54

    RT-Thread全球技術大會:QE工具移除AI技術壁壘與數據建立

    RT-Thread全球技術大會:QE工具移除AI技術壁壘與數據建立 ? ? ? ? ? ? 審核編輯:彭靜
    的頭像 發表于 05-27 10:36 ?1295次閱讀
    RT-Thread全球<b class='flag-5'>技術</b>大會:QE工具移除AI<b class='flag-5'>技術壁壘</b>與數據建立

    BMS芯片市場趨勢和主要技術壁壘是什么

    目前,BMS芯片市場趨勢和主要技術壁壘是什么?主要的國際國內玩家有哪些?國產替代的最新進展是怎樣的?本文進行詳細分析。
    的頭像 發表于 07-29 09:19 ?4515次閱讀

    碳化硅技術壁壘分析:碳化硅技術壁壘是什么 碳化硅技術壁壘有哪些

    碳化硅技術壁壘分析:碳化硅技術壁壘是什么 碳化硅技術壁壘有哪些 碳化硅芯片不僅是一個新風口,也是一個很大的挑戰,那么我們來碳化硅技術壁壘分析
    的頭像 發表于 02-03 15:25 ?3770次閱讀
    碳化硅<b class='flag-5'>技術壁壘</b>分析:碳化硅<b class='flag-5'>技術壁壘</b>是什么 碳化硅<b class='flag-5'>技術壁壘</b>有哪些
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>