<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Scale out成高性能計算更優解,通用互聯技術大有可為

Felix分析 ? 來源:電子發燒友網 ? 作者:吳子鵬 ? 2024-04-07 00:06 ? 次閱讀
電子發燒友網報道(文/吳子鵬)從聊天機器人程序ChatGPT,到文生視頻大模型Sora,AI大模型的蓬勃發展背后,為算法模型、高質量數據、算力基礎設施帶來了持續的挑戰?!爱斊髽I通過Scale out提升集群規模,就需要把數據中心從微觀到宏觀、點對點地連接起來,增強各個層面的互聯性能,真正有效地應用算力資源?!?奇異摩爾創始人兼CEO田陌晨在接受電子發燒友采訪時表示。

伴隨著摩爾定律的放緩步伐,通過Scale up提升單處理器系統的性能和算力遭遇了“流水線過長,延遲高、布線困難”等重重困境。Scale out作為Scale up的延續,在物理層面引入了規模性互聯,讓“算力-互聯”成為算力提升的新型抓手。研究機構IPnest預測,2025年,“片間互聯技術”接口IP市占率有望超過處理器IP,成為排名第一的IP品類。那么,片內、片間、網間的互聯技術未來會呈現何種特點?高性能計算體系將如何發展?就這些話題,我們采訪了互聯技術領域代表企業奇異摩爾CEO田陌晨先生。
片內互聯:從專用到通用
理論上,芯??杀灰曌鞴潭K,實現不同產品、代際的復用。在智算中心集群發展中,以互聯芯粒IO Die為代表的互聯芯粒在提升良率、降低制造復雜度和成本等方面所顯示出的優勢,已成為行業發展共識。AMD的Zen系列和英特爾Clearwater Forest旗艦級數據中心處理器都是典型案例。
Intel Clearwater Forest 2
田陌晨認為,IO Die為代表的片內互聯技術呈現芯?;?、3D化發展兩大趨勢。芯?;菫榱嗽鲞M架構靈活性,降低芯片對先進工藝的依賴;3D化則是通過縱向維度進一步提升互聯密度。
目前,市場上的IO Die主要為AMD、英特爾等大廠主導,但私有協議無法兼容不同來源的芯粒,專用IO Die的封閉生態已成為其發展掣肘。受到巨大的需求推動,通用IO芯粒開始嶄露頭角。以奇異摩爾旗下的通用互聯芯粒 Kiwi IO Die為例,產品集成了如D2DDDRPCIeCXL等大量存儲、互聯接口,最高可以支持10+Chiplets,構建高達192 core CPU或1000T GPU的算力平臺。
奇異摩爾通用互聯芯粒 Kiwi IO Die
與其同時,受益于先進封裝技術的進步,IO Die也出現了2.5D向3D的結構變化。Base Die可視為IO Die的3D形態,允許不同計算、存儲芯粒的堆疊或并排放,可顯著提升芯片單位面積晶體管的集成度,帶來更高的帶寬,更低的延遲、功耗。
市場上Base Die的境況與IO Die類似,雖然專用產品已在市場上展現了商業化價值,但技術并未擴散,而是被少數頭部企業壟斷。在奇異摩爾為代表的創新企業努力下,Base Die通用市場開始起步。據田陌晨介紹,奇異摩爾旗下的通用互聯底座Kiwi 3D Base Die,在3D高性能通用底座方面屬全球首例,實現了通用互聯芯粒在帶寬、能效、搭載芯片數量等多方面的突破性進展,能夠以20%的功耗實現8倍于2.5D結構的互聯密度,最高可實現16顆算力芯粒堆疊。
奇異摩爾通用互聯底座Kiwi 3D Base Die
IO Die和Base Die只是互聯技術的兩個典型的例子,說明片內互聯技術如何在計算與存儲之間、在龐大的智算中心和Scaling out 的浪潮中,產生對計算能力的更多助力。事實上,除了片內互聯,還有許多種方法可以讓更多的數據實現更高好的連接和更低的成本,比如片間互聯、網間互聯技術的單點到全面突破。
亟待加速的片間互聯:D2D接口
和片內互聯一樣,受益于算力和突飛猛進的算力增長需求,片間互聯技術亟需加速?;贑hiplet技術的Die-to-Die技術(D2D)帶來了一種更高效的計算和內存的連接方式,可以看似毫不費力的將計算、存儲芯粒集成在一起,在互聯層面上形成一個SoC級芯片。
相比傳統的計算芯片和存儲芯片的互聯方式,D2D提供了更高效、更低延遲的連接方式,是Chiplet實現的基礎,田陌晨介紹。通過Die間通信,D2D可以實現更高的傳輸帶寬和更高密度的集成;D2D能有效縮短數據傳輸的物理距離,降低延遲,提高處理速度;作為先進封裝的基礎,D2D可以實現計算和存儲單元的無縫連接,進一步提高性能、降低功耗;基于D2D,企業可以更靈活地實現計算和存儲單元的多模組配置,提高系統可擴展性、靈活性,降低系統維護成本。這些優勢,使得D2D接口在高性能集群的Scaling out建設中,發揮了關鍵的作用。
和IO Die一樣,D2D也需要通用化的大力推進。奇異摩爾基于UCIe標準,推出了全球首批支持 UCIe V1.1 的 Die2Die IP,互聯速度高達32GT/s,延時低至數納秒,全面支持UCIe、CXL、Streaming等主流協議,即插即用。田陌晨說,奇異摩爾所有產品都構建在國際標準協議之上,致力于使各家產品實現互聯互通,構成一個開放的Chiplet系統。
奇異摩爾高速互聯接口Kiwi Die2Die IP
RISC-V+Chiplet:1+1>2
如今,Chiplet之外,RISC-V架構也在大舉邁進高性能計算。邊緣計算市場,傳統通用型MCU/MPU/CPU已經難以滿足不同應用場景和性能要求,RISC-V了帶來更好的PPA實現。RISC-V的本質是一個開放標準,沖擊高性能運算市場是發展的必然,而二者(與Chiplet)的融合,被認為能為高性能計算市場開辟一場1+1>2的創新動力。這也是RISC-V高性能處理器的代表性企業Ventana與奇異摩爾合作的深層動因。
Ventana創始人兼CEO?Balaji?Baktha介紹,兩家企業聯手打造了一個可擴展處理器架構,可將多個Ventana?Veyron?V2與奇異摩爾的IO?Die組成不同配置的SoC。田陌晨認為,V2與奇異摩爾IO?Die的結合,是RISC-V和Chiplet在高性能計算領域融合的成功案例。

“RISC-V具備開源、開放、靈活和高度可定制特性,設計了多種用于任務加速的指令集擴展,能實現向量計算、加解密等任務加速,具有較高的計算性能,且簡潔特性能降低芯片的功耗?!盉alaji說,“而Chiplet是構建下一代半導體產品前進戰略的重要組成部分,可以輕松構建高性能CPU。其‘可組合性’讓用戶以最佳比例組合計算、內存和IO,創造一個在性能、成本效益、工作負載等各方面都更為高效的系統。將RISC-V的開放式架構與 Chiplet開放式硬件設計相結合,能有效推動數據中心的工作流程效率,將單插槽性能發揮到極致?!?/div>
記者了解到,奇異摩爾和Ventana一直在努力將RISC-V和IO Die的組合推向下一代計算架構的前沿,以提高數據中心服務的效率和工作負載的效率,并共同創建了一款高性能數據中心級RISC-V處理器,其融合了RISC-V 架構和模塊化的Chiplet設計的優勢,每個V2單元包括32個核心,最終實現最高192個內核,這也是全球首例數據中心級的RISC-V Chiplet處理器。
回顧這次和Ventana的合作,田陌晨稱,從技術互通性角度看,基于IO Die的互聯,x86、ARM和RISC-V三大架構都需要采用大量存儲訪問和外部接口,進行大量傳輸、讀取及調度。RISC-V和Chiplet技術融合進一步提升了計算平臺的定制特性,可以避免那些對高性能運算有需求的客戶被鎖定在一個供應商的生態內,并助力企業應對AGI所引發的架構變革挑戰,這在x86和ARM的Chiplet設計中較難實現。
當然,RISC-V和Chiplet技術融合,也伴隨著如Die間通信、高性能、特定領域等多重挑戰,如,為實現不同來源芯粒的通信,兩家公司采取了IO Die中央設計連接CPU芯粒的方案,通過Kiwi Fabric實現了納秒級的低延遲和高效的數據傳輸。讓整個SoC在工作流的角度上,呈現獨立CPU的特質。
在性能方面,為達到現有ISA(x86/ARM)設定的高性能基準,確保處理器微架構可以提供世界一流性能,雙方合作的產品最高可實現192個內核。同時,通過一致性互聯,讓所有內核共享高性能、高速緩存和內存。
在特定領域方面,通過對計算芯粒、內存和各種加速器配比的整體規劃,為各種工作負載提供靈活的硬件配置選項;在CPU中內置了端到端的RAS,確保所有總線都受到安全啟動驗證和級別驗證等保護,同時克服側通道攻擊和其他漏洞,確保CPU芯粒和整個SoC層面的安全。
從計算加速到網絡加速
從行業動態來看,高性能運算從Scale up向Scale out的轉變是全方位的,在芯片設計、算力卡間、集群間無不如此。簡單的說,Scale out最核心的改變就是互聯。田陌晨認為,在Scale out所引發的巨量數據交互挑戰背后,是加速重點從計算到網絡的轉變和“Bandwidth, Efficiency, Workload”互聯三要素的優化需求。
在算力集群網絡傳輸協議方面,傳統協議TCP/IP存在CPU負載重、延遲高等缺點,難以滿足高性能計算對網絡吞吐、時延的苛刻要求。RDMA能直接通過網絡接口訪問內存數據,無需操作系統內核的介入,讓大規模并行計算集群成為可行。計算機網絡協議棧將從TCP/IP過渡到RDMA,在網絡層面上,把一個集群變成一臺設備。
RDMA并未規定完整的協議棧,因此包含不同的分支,如英偉達的Quantum InfiniBand是專門為RDMA設計的一種超低延遲、超高吞吐量的專用網絡引擎。然而,業界需要一種更為通用化的解決方案。在性能方面可與InfiniBand匹敵的RoCE顯著降低了RDMA協議通信成本,被認為能夠打破英偉達在這個領域的技術壟斷。
這也是奇異摩爾推出高性能網絡加速芯粒Kiwi NDSA(Network Domain Specific Accelerator)系列的原因所在。據介紹,Kiwi NDSA內建RoCE V2高性能 RDMA (Remote Direct Memory Access) 和數十種卸載/加速引擎,可作為獨立芯粒,實現系統不同位置的加速。Kiwi NDSA產品系列包括“NDSA-RN-F”和“NDSA-RN”。前者是全球首批200/400G的高性能FPGA RDMA網卡,將在近期面世;后者是全球首款支持800G帶寬的RDMA NIC Chiplet產品,除帶寬升級到800G之外,延時也降至納秒級,并支持數十GB的超大規模數據包。
奇異摩爾高性能網絡加速芯粒Kiwi NDSA
結語
在高性能計算體系全方位從Scale up向Scale out轉變的背景下,互聯技術已成為提升集群算力的新方案。以IO Die為代表的互聯芯粒正在加速其通用化進程和2.5D至3D轉變;片間PCIe等傳統傳輸方式正在被低延遲、低功耗的D2D技術取代;集群互聯網絡則從TCP/IP轉向RDMA架構,通用RDMA方案將迎來更廣闊的機遇?;ヂ摷夹g和RISC-V架構的融合,能夠助力企業更好地應對AGI所引發的架構變革挑戰,幫助高性能計算領域用戶實現Scale out。未來,對幾乎每一家高性能計算產業鏈上的企業來說,互聯都是一個至關重要的市場。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SCALE
    +關注

    關注

    3

    文章

    13

    瀏覽量

    13936
  • 高性能計算
    +關注

    關注

    0

    文章

    69

    瀏覽量

    13302
  • chiplet
    +關注

    關注

    6

    文章

    382

    瀏覽量

    12443
  • 奇異摩爾
    +關注

    關注

    0

    文章

    32

    瀏覽量

    3203
  • 芯粒
    +關注

    關注

    0

    文章

    49

    瀏覽量

    67
收藏 人收藏

    評論

    相關推薦

    DLP技術在智能家居中大有可為

    電子發燒友網報道(文/黃山明)DLP技術自發明以來,經歷了實驗室研究、原型開發、商業化應用以及持續的技術創新和市場擴張,成為現代投影和顯示行業中不可或缺的關鍵技術之一,尤其在智能家居領域,DLP
    的頭像 發表于 03-31 13:28 ?3074次閱讀
    DLP<b class='flag-5'>技術</b>在智能家居中<b class='flag-5'>大有可為</b>

    薩科微總經理宋仕強:華強北貿易商來賣國產品牌大有可為

    薩科微總經理宋仕強說,華強北貿易商來賣國產品牌大有可為,他們本身有這些優勢A. 熟悉華強北電子市場和電子信息產品B. 客情關系好,和終端客戶和市場客戶有深度的交流和交情,C .為客戶服務的商務方式多
    發表于 03-22 09:47

    什么是HPC高性能計算

    高性能計算(HighPerformanceComputing,簡稱HPC),是指利用集群、網格、超算等計算機技術,通過合理地組織計算機資源以及運用適合的算法和程序,提高
    的頭像 發表于 02-19 13:27 ?230次閱讀
    什么是HPC<b class='flag-5'>高性能</b><b class='flag-5'>計算</b>

    知合計算完成數億元融資,致力于研發高性能通用可擴展處理器

    該公司專注于高性能通用可擴展處理器的研發,運用芯片切片技術擴大運算能力范圍,同時結合光計算和光互聯技術
    的頭像 發表于 01-11 10:26 ?3410次閱讀

    FPGA在高性能計算中的優勢及其用例都有哪些?

    近年來,現場可 編程 門陣列 ( FPGA ) 因其可定制性、并行處理和低延遲而成為高性能計算 (HPC) 的可行技術。 高性能計算 (HP
    的頭像 發表于 12-09 12:15 ?509次閱讀
    FPGA在<b class='flag-5'>高性能</b><b class='flag-5'>計算</b>中的優勢及其用例都有哪些?

    驅動云/邊緣側算力建設的高性能互聯接口方案

    驅動云/邊緣側算力建設的高性能互聯接口方案
    的頭像 發表于 11-23 16:30 ?245次閱讀
    驅動云/邊緣側算力建設的<b class='flag-5'>高性能</b><b class='flag-5'>互聯</b>接口方案

    一種高性能多通道通用DMA設計與實現

    為充分發揮異構多核DSP芯片的實時計算能力,設計并實現了一種高性能多通道的通用DMA,該DMA最大支持64個通道的數據搬運,并支持一維、二維、轉置以及級聯描述符等多種傳輸模式。芯片實測傳輸性能
    的頭像 發表于 11-20 15:52 ?652次閱讀
    一種<b class='flag-5'>高性能</b>多通道<b class='flag-5'>通用</b>DMA設計與實現

    希捷:構建數智未來,存儲大有可為

    供的覆蓋邊緣、云端等一系列存儲解決方案以及前沿技術,并且開啟了以“構建數智未來,存儲大有可為”為主題的發布。希捷亮相第十九屆中國國際社會公共安全博覽會希捷CPSE展臺:構建數智未來,存儲大有可為
    的頭像 發表于 10-26 09:42 ?391次閱讀
    希捷:構建數智未來,存儲<b class='flag-5'>大有可為</b>

    三大更新即將發布,藍牙技術大有可為

    ? 電子發燒友網報道(文/吳子鵬)近段時間,關于藍牙、星閃技術和UWB之間的討論非常熱烈,有時候范圍還會擴展到Wi-Fi,一時間藍牙的處境看上去有些四面楚歌。不過,在“藍牙誕生25周年:致力于建立
    的頭像 發表于 10-23 08:16 ?1337次閱讀
    三大更新即將發布,藍牙<b class='flag-5'>技術</b>仍<b class='flag-5'>大有可為</b>

    OpenHarmony應用核心技術理念與需求機遇簡析

    新的表現形式。 所以各種傳統的WEB網站,客戶端平臺,盡早進入OpenHammony應用服務體系,享受各項支持政策和紅利,從現有的紅海互聯網、移動互聯網市場進入OpenHarmony智能物聯網藍海領域,大有可為。
    發表于 09-22 16:12

    FPGA在高性能計算中的優勢及其用例都有哪些?

    近年來,現場可編程門陣列 (FPGA) 因其可定制性、并行處理和低延遲而成為高性能計算 (HPC) 的可行技術。
    發表于 08-21 09:05 ?520次閱讀
    FPGA在<b class='flag-5'>高性能</b><b class='flag-5'>計算</b>中的優勢及其用例都有哪些?

    薩科微:半導體“國產替代”大有可為

    薩科微半導體副總經理和俊駒說,半導體“國產替代”大有可為,薩科微slkor研發生產的IGBT管、碳化硅場效應管的市場會越來越大!國產功率半導體已在眾多領域應用,特別是低端產品,如薩科微的TVS二極管
    的頭像 發表于 08-18 14:00 ?289次閱讀
    薩科微:半導體“國產替代”<b class='flag-5'>大有可為</b>

    薩科微,半導體“國產替代”大有可為

    薩科微半導體副總經理和俊駒說,半導體“國產替代”大有可為,薩科微slkor研發生產的IGBT管、碳化硅場效應管的市場會越來越大!國產功率半導體已在眾多領域應用,特別是低端產品,如薩科微的TVS二極管
    的頭像 發表于 07-06 14:16 ?389次閱讀
    薩科微,半導體“國產替代”<b class='flag-5'>大有可為</b>

    面向后E級計算高性能處理器技術參考和借鑒

    商用高性能計算處理器市場主要被NVIDIA、AMD和Intel3家公司長期占據,在面向E級計算 的 高 性 能 處 理 器 中,AMD 最 新 的Instinct MI250X處理器雙精度浮點運算
    發表于 06-19 09:34 ?370次閱讀
    面向后E級<b class='flag-5'>計算</b>的<b class='flag-5'>高性能</b>處理器<b class='flag-5'>技術</b>參考和借鑒

    從ChatGPT等大模型的興起,看未來計算芯片的發展趨勢

    其次,擴大集群規模,也即大家熟知的Scale Out。要想Scale out,就需要增強集群的內聯交互,也就是要更高的帶寬,更高效的高性能
    的頭像 發表于 05-30 11:22 ?658次閱讀
    從ChatGPT等大模型的興起,看未來<b class='flag-5'>計算</b>芯片的發展趨勢
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>