電子發燒友網報道(文/李彎彎)近幾年,隨著傳統馮·諾依曼結構的瓶頸逐漸顯現,越來越多企業投身于存算一體芯片研發的浪潮中,試圖打破“存算墻”、“能耗墻”和“編譯墻”對AI應用進一步發展帶來的掣肘,在 “超摩爾時代”走出新的道路。盡管有著相似的目標,但各企業采取的技術路線卻不盡相同。
早期有企業基于Flash做模擬的存算一體芯片,例如美國的Mythic等,已實現產品量產。同時還有一些奮斗在存算一體架構道路上的創業伙伴選擇了SRAM,不同的存儲介質都有各自的屬性特點,針對不同應用場景的要求存在不同的優劣勢。比如基于Flash做的存算一體芯片,介質和工藝比較成熟,功耗低,但精度較低、算力較小,可以滿足語音識別、智能穿戴等場景的要求,卻難以滿足高精度、大算力場景的要求;SRAM因為面積(密度)、成本以及漏電流等自身屬性,更加適合于對待機功耗不敏感、對算力要求在中小算力范疇的場景。
ReRAM(RRAM)是近年來被產學界均寄予厚望的新型非易失性憶阻器,為此,電子發燒友采訪到億鑄科技創始人、董事長兼 CEO熊大鵬博士,就基于ReRAM存算一體芯片的技術優勢、ReRAM目前的工藝進展、存算一體未來的市場機會等多個問題進行了探討。
億鑄科技是基于ReRAM這種新型憶阻器設計存算一體AI大算力芯片的企業。
ReRAM存儲介質的優勢:
存儲介質是實現存算一體的底層物理器件,不同存儲介質的選擇,會對存算結果產生重大影響。ReRAM全稱是電阻式隨機存取存儲器,是以非導性材料的電阻在外加電場作用下,在高阻態和低阻態之間實現可逆轉換為基礎的非易失性存儲器。
ReRAM的核心優勢:
非易失性和低功耗:ReRAM不用的時候不需要上電,靜態功耗為零,讀寫之外的功耗為0;
面積小、密度高:ReRAM的單元面積極小,可做到4F2,理論上不需要晶體管,一般是加一個選擇管,所以就是1TnR,面積上成倍縮??;
微縮化發展:可以持續利用先進制程升級迭代,目前最先進的量產工藝為28nm,未來持續演進的空間很大;目前已經能做到幾百MB的存儲容量,大大超過了前主流AI算力芯片的片上存儲容量,未來ReRAM存算一體芯片的存儲容量可以做到幾個GB,甚至更高。
讀寫速度:讀寫速度比NAND Flash提升了2~3個數量級,明顯優于Flash;
高精度和大算力:億鑄和ReRAM工藝foundry聯合研發基于ReRAM的全數字化存算一體MACRO,具有支持高精度和大算力的優勢和潛力;
穩定性強:對工藝制程上一些微小的差異和干擾不敏感,具有很強的魯棒性。溫度適應范圍廣(-40~125℃),同時還具有良好的抗電磁干擾能力(EMC);
兼容性(工程實現相對容易):ReRAM本身對CMOS工藝兼容性很好。
因為上述種種優勢,ReRAM被認為是實現存算一體的最佳憶阻器選擇。
存算一體架構的優勢
存算一體架構,打破了傳統馮·諾依曼架構下存在的存儲墻。在異構架構下,存儲墻導致了大量數據在計算單元和存儲單元間頻繁移動,使60-90%的能耗用于數據搬運而非數據計算,這也是導致了能耗墻的問題主要原因。
為解決存儲墻問題,業界采用了很多架構上的設計優化方案,比如多級緩存和非常復雜與精巧的數據流動態實時控制和管理。但是這些“方案”從理論上來說無法由編譯器自動“理解”,無法自動優化芯片的執行程序代碼,必須投入大量成本去做手動優化。而存算一體架構解決了存儲墻問題,無需特別考慮數據流動態實時控制和優化問題,其計算資源、存儲資源和輸入/輸出接口帶寬資源等資源分配是靜態的,可以通過工具實現合理優化,這對將來產品的部署非常有利,也大大降低了平臺的遷移難度和成本。
全數字化實現存算一體大算力AI芯片的優勢
目前業內大多采用的是模擬計算做存算一體芯片,而億鑄科技提出以全數字化的方式實現ReRAM存算一體AI大算力芯片技術路線。那么,全數字方式有什么優勢呢?
在著墨全數字方式之前,不妨先來看看模擬的方式的優缺點。模擬計算方式做存算一體特別適合于低功耗、小算力、低精度的應用場景,比如語音關鍵詞識別、智能穿戴、AIOT等。
由于采用非易失性憶阻器,無論斷電與否,寫入憶阻器的計算參數均不會丟失。利用憶阻器的這個特點,把計算系數(比如向量或矩陣的系數、神經網絡的系數)寫進憶阻器(好比可編程電阻),將輸入的數據進行數模轉換變成電壓值,電壓值通過電阻產生電流,再將電流進行模數轉換成計算結果。如此,根據歐姆定律和基爾霍夫定律實現了乘積累加計算,完成模擬計算過程。也就是說,由一個電阻實現乘法和加法計算,這個電阻替代了傳統數字電路的一個乘法器和加法器。在數字電路里,乘法器和加法器往往需要幾百個晶體管,而現在只需要一個電阻,也就是若干個晶體管就能實現。這意味著,它的電路簡單了幾百倍,能耗也節省了幾百上千倍,這是模擬計算跟傳統的數字電路相比所擁有的一個巨大優勢。
然而,模擬計算存在幾個問題。
第一,如何保證電阻的精度?熊大鵬博士向電子發燒友介紹,業界采取了從工藝、硬件電路設計到軟件等多種方式,試圖對精度進行補償,最后發現模擬存算一體存在明確的天花板,做到8位或者16位的精度難度很大。
第二,模擬計算必須從數字域轉換到模擬域來做計算,再把計算結果轉回到數字域,這就需要數模/模數(AD/DA)轉換,而這本身就帶來了性能、能耗還有電路復雜度等問題。
所以盡管模擬存算一體能夠省面積、功耗低、電路簡單(相對于傳統數字電路而言),但因其仍然存在模數和數模轉化的部分以及精度補償等設計,仍然有其電路設計的復雜性,同時還有精度不夠、算力不高等問題。
熊大鵬博士表示,業界也嘗試過不同的方法來解決這兩個問題,比如,有不少企業選擇了混合式設計的路線——也就是采取部分模擬、部分數字的方式,通過數字的部分來改善精度和AD/DA帶來性能限制的問題,同時兼具模擬在性能、功耗上等方面的優勢。但這仍然無法給AI算力密度和能效比的提升帶來一條可持續發展的技術路徑。
億鑄團隊和一家國際ReRAM新型存儲技術領軍企業的技術專家團隊以及公司內部的核心研發團隊聯合就這兩個問題進行了深入分析和解決方案探索,結合ReRAM存儲介質各項屬性的比較優勢,億鑄科技認為全數字化方式是當前實現存算一體AI大算力芯片的最佳路徑。
ReRAM作為一種新型憶阻器,目前的工藝進展情況如何呢?
據熊大鵬博士介紹,目前在全球范圍內,不管是ReRAMIP還是ReRAM先進工藝制程,比較成熟的兩家公司為臺積電和昕原半導體。業內已有知名頭部企業采用ReRAM設計下一代芯片,因此,2021年被業內稱為“ReRAM元年”。
而億鑄科技更是和該國際ReRAM領軍企業構建了緊密的合作伙伴關系,二者珠聯璧合,強有力地推動了存算一體芯片的研發和商業化落地及生態構建。
從應用場景來看,存算一體大算力AI芯片主要面向數據中心、自動駕駛等對算力密度、能效比需求很高的領域。在這領域,相比于傳統的AI芯片或者GPU,存算一體芯片在PPA(PPA即Performance性能、Power功耗、Area尺寸)的表現將會非常亮眼。換言之,存算一體大算力AI芯片在單位面積相同的情況下,在計算性能、能效比等方面均會有數量級的提升。比如,同在75W功耗的前提下,億鑄ReRAM存算一體大算力芯片算力可達1POPS(INT8)以上。據熊大鵬博士介紹,基于ReRAM的存算一體28nm工藝相對于7nm 的GPU,算力可以提升十倍左右。這意味著對于終端用戶來說,可以在不增加物理空間的前提下,大大提升算力密度,大幅度降低能耗,減少采購和運維成本。
如今在大算力AI推理計算的解決方案里,算力和能效比的提升主要依賴工藝制程的演進。而當演進之路逐漸達到物理極限,上層的算法日益復雜、迭代加速,AI大算力芯片處于兩者剪刀差中,其發展破局之路被越來越多地寄希望于創新架構,從根本上跳出馮·諾依曼架構體系,解決存儲墻以及存儲墻帶來的能耗墻和編譯墻(軟件生態依賴)問題。根據熊大鵬博士所述,不管是中心側還是邊緣側的潛在客戶對億鑄ReRAM存算一體大算力芯片都非常期待,而億鑄團隊對于產品的成功落地有著必勝的信心。
早期有企業基于Flash做模擬的存算一體芯片,例如美國的Mythic等,已實現產品量產。同時還有一些奮斗在存算一體架構道路上的創業伙伴選擇了SRAM,不同的存儲介質都有各自的屬性特點,針對不同應用場景的要求存在不同的優劣勢。比如基于Flash做的存算一體芯片,介質和工藝比較成熟,功耗低,但精度較低、算力較小,可以滿足語音識別、智能穿戴等場景的要求,卻難以滿足高精度、大算力場景的要求;SRAM因為面積(密度)、成本以及漏電流等自身屬性,更加適合于對待機功耗不敏感、對算力要求在中小算力范疇的場景。
ReRAM(RRAM)是近年來被產學界均寄予厚望的新型非易失性憶阻器,為此,電子發燒友采訪到億鑄科技創始人、董事長兼 CEO熊大鵬博士,就基于ReRAM存算一體芯片的技術優勢、ReRAM目前的工藝進展、存算一體未來的市場機會等多個問題進行了探討。
ReRAM存算一體的獨特優勢
億鑄科技是基于ReRAM這種新型憶阻器設計存算一體AI大算力芯片的企業。
ReRAM存儲介質的優勢:
存儲介質是實現存算一體的底層物理器件,不同存儲介質的選擇,會對存算結果產生重大影響。ReRAM全稱是電阻式隨機存取存儲器,是以非導性材料的電阻在外加電場作用下,在高阻態和低阻態之間實現可逆轉換為基礎的非易失性存儲器。
ReRAM的核心優勢:
非易失性和低功耗:ReRAM不用的時候不需要上電,靜態功耗為零,讀寫之外的功耗為0;
面積小、密度高:ReRAM的單元面積極小,可做到4F2,理論上不需要晶體管,一般是加一個選擇管,所以就是1TnR,面積上成倍縮??;
微縮化發展:可以持續利用先進制程升級迭代,目前最先進的量產工藝為28nm,未來持續演進的空間很大;目前已經能做到幾百MB的存儲容量,大大超過了前主流AI算力芯片的片上存儲容量,未來ReRAM存算一體芯片的存儲容量可以做到幾個GB,甚至更高。
讀寫速度:讀寫速度比NAND Flash提升了2~3個數量級,明顯優于Flash;
高精度和大算力:億鑄和ReRAM工藝foundry聯合研發基于ReRAM的全數字化存算一體MACRO,具有支持高精度和大算力的優勢和潛力;
穩定性強:對工藝制程上一些微小的差異和干擾不敏感,具有很強的魯棒性。溫度適應范圍廣(-40~125℃),同時還具有良好的抗電磁干擾能力(EMC);
兼容性(工程實現相對容易):ReRAM本身對CMOS工藝兼容性很好。
因為上述種種優勢,ReRAM被認為是實現存算一體的最佳憶阻器選擇。
存算一體架構的優勢
存算一體架構,打破了傳統馮·諾依曼架構下存在的存儲墻。在異構架構下,存儲墻導致了大量數據在計算單元和存儲單元間頻繁移動,使60-90%的能耗用于數據搬運而非數據計算,這也是導致了能耗墻的問題主要原因。
為解決存儲墻問題,業界采用了很多架構上的設計優化方案,比如多級緩存和非常復雜與精巧的數據流動態實時控制和管理。但是這些“方案”從理論上來說無法由編譯器自動“理解”,無法自動優化芯片的執行程序代碼,必須投入大量成本去做手動優化。而存算一體架構解決了存儲墻問題,無需特別考慮數據流動態實時控制和優化問題,其計算資源、存儲資源和輸入/輸出接口帶寬資源等資源分配是靜態的,可以通過工具實現合理優化,這對將來產品的部署非常有利,也大大降低了平臺的遷移難度和成本。
全數字化實現存算一體大算力AI芯片的優勢
目前業內大多采用的是模擬計算做存算一體芯片,而億鑄科技提出以全數字化的方式實現ReRAM存算一體AI大算力芯片技術路線。那么,全數字方式有什么優勢呢?
在著墨全數字方式之前,不妨先來看看模擬的方式的優缺點。模擬計算方式做存算一體特別適合于低功耗、小算力、低精度的應用場景,比如語音關鍵詞識別、智能穿戴、AIOT等。
由于采用非易失性憶阻器,無論斷電與否,寫入憶阻器的計算參數均不會丟失。利用憶阻器的這個特點,把計算系數(比如向量或矩陣的系數、神經網絡的系數)寫進憶阻器(好比可編程電阻),將輸入的數據進行數模轉換變成電壓值,電壓值通過電阻產生電流,再將電流進行模數轉換成計算結果。如此,根據歐姆定律和基爾霍夫定律實現了乘積累加計算,完成模擬計算過程。也就是說,由一個電阻實現乘法和加法計算,這個電阻替代了傳統數字電路的一個乘法器和加法器。在數字電路里,乘法器和加法器往往需要幾百個晶體管,而現在只需要一個電阻,也就是若干個晶體管就能實現。這意味著,它的電路簡單了幾百倍,能耗也節省了幾百上千倍,這是模擬計算跟傳統的數字電路相比所擁有的一個巨大優勢。
然而,模擬計算存在幾個問題。
第一,如何保證電阻的精度?熊大鵬博士向電子發燒友介紹,業界采取了從工藝、硬件電路設計到軟件等多種方式,試圖對精度進行補償,最后發現模擬存算一體存在明確的天花板,做到8位或者16位的精度難度很大。
第二,模擬計算必須從數字域轉換到模擬域來做計算,再把計算結果轉回到數字域,這就需要數模/模數(AD/DA)轉換,而這本身就帶來了性能、能耗還有電路復雜度等問題。
所以盡管模擬存算一體能夠省面積、功耗低、電路簡單(相對于傳統數字電路而言),但因其仍然存在模數和數模轉化的部分以及精度補償等設計,仍然有其電路設計的復雜性,同時還有精度不夠、算力不高等問題。
熊大鵬博士表示,業界也嘗試過不同的方法來解決這兩個問題,比如,有不少企業選擇了混合式設計的路線——也就是采取部分模擬、部分數字的方式,通過數字的部分來改善精度和AD/DA帶來性能限制的問題,同時兼具模擬在性能、功耗上等方面的優勢。但這仍然無法給AI算力密度和能效比的提升帶來一條可持續發展的技術路徑。
億鑄團隊和一家國際ReRAM新型存儲技術領軍企業的技術專家團隊以及公司內部的核心研發團隊聯合就這兩個問題進行了深入分析和解決方案探索,結合ReRAM存儲介質各項屬性的比較優勢,億鑄科技認為全數字化方式是當前實現存算一體AI大算力芯片的最佳路徑。
ReRAM工藝28nm/22nm已經成熟量產
ReRAM作為一種新型憶阻器,目前的工藝進展情況如何呢?
據熊大鵬博士介紹,目前在全球范圍內,不管是ReRAMIP還是ReRAM先進工藝制程,比較成熟的兩家公司為臺積電和昕原半導體。業內已有知名頭部企業采用ReRAM設計下一代芯片,因此,2021年被業內稱為“ReRAM元年”。
而億鑄科技更是和該國際ReRAM領軍企業構建了緊密的合作伙伴關系,二者珠聯璧合,強有力地推動了存算一體芯片的研發和商業化落地及生態構建。
存算一體大算力AI芯片的市場機會
從應用場景來看,存算一體大算力AI芯片主要面向數據中心、自動駕駛等對算力密度、能效比需求很高的領域。在這領域,相比于傳統的AI芯片或者GPU,存算一體芯片在PPA(PPA即Performance性能、Power功耗、Area尺寸)的表現將會非常亮眼。換言之,存算一體大算力AI芯片在單位面積相同的情況下,在計算性能、能效比等方面均會有數量級的提升。比如,同在75W功耗的前提下,億鑄ReRAM存算一體大算力芯片算力可達1POPS(INT8)以上。據熊大鵬博士介紹,基于ReRAM的存算一體28nm工藝相對于7nm 的GPU,算力可以提升十倍左右。這意味著對于終端用戶來說,可以在不增加物理空間的前提下,大大提升算力密度,大幅度降低能耗,減少采購和運維成本。
如今在大算力AI推理計算的解決方案里,算力和能效比的提升主要依賴工藝制程的演進。而當演進之路逐漸達到物理極限,上層的算法日益復雜、迭代加速,AI大算力芯片處于兩者剪刀差中,其發展破局之路被越來越多地寄希望于創新架構,從根本上跳出馮·諾依曼架構體系,解決存儲墻以及存儲墻帶來的能耗墻和編譯墻(軟件生態依賴)問題。根據熊大鵬博士所述,不管是中心側還是邊緣側的潛在客戶對億鑄ReRAM存算一體大算力芯片都非常期待,而億鑄團隊對于產品的成功落地有著必勝的信心。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
reram
+關注
關注
1文章
51瀏覽量
25427 -
AI芯片
+關注
關注
17文章
1735瀏覽量
34514 -
存算一體
+關注
關注
0文章
95瀏覽量
4169
發布評論請先 登錄
相關推薦
知存科技助力AI應用落地:WTMDK2101-ZT1評估板實地評測與性能揭秘
算一體芯片的發展歷程、當前研究狀態,以及基于多種存儲介質(例如傳統的DRAM、SRAM和Flash,以及新型的非易失性存儲器如ReRAM、PCM、MRAM、FeFET等)的
發表于 05-16 16:38
【算能RADXA微服務器試用體驗】Radxa Fogwise 1684X Mini 規格
通過網絡可以了解到,算能RADXA微服務器的具體規格:
處理器:BM1684X
算力:高達32Tops INT8峰值算力
內存:16GB L
發表于 02-28 11:21
iBeLink KS MAX 10.5T大算力領跑KAS新領域
有8G的顯存,可以處理復雜的算法,提高挖掘穩定性。iBeLink ks max10.5T的超大特點是它的高效節能,它采用了先進的“存算一體”高通量算
發表于 02-20 16:11
評論