<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文讀懂智算中心網絡

SDNLAB ? 來源:SDNLAB ? 2023-10-21 09:34 ? 次閱讀

作者簡介:陳起,江蘇有線技術研究院高級工程師,碩士,主要從事IPv6、新型城域網方面的研究,曾參與過TVOS、HINOC等重大項目。

01人工智能主流應用場景及算力需求

人工智能領域包括8大重要應用場景,包括:識別檢測、語音交互、AI芯片、自動駕駛、機器人、視頻解析、人機協同、機器翻譯、精準推薦等。每類場景對算力的要求不同。以人工智能最常應用的三大類場景為例,在應用于安防、醫療診斷和自動駕駛等領域的圖像檢測和視頻檢索場景中,以卷積網絡為主要算力需求;在博弈決策類應用場景中,以強化學習為主要算力需求;在新基建大型計算機場景中,以自然語音處理為主要算力需求。人工智能領域涉及較多的矩陣、向量的乘法和加法,專用性高,對算力消耗大,不適合用通用CPU進行計算。智算中心需要支持不同種類的計算核心,如CPU、GPU、ARM、FPGA等,通過專用處理器高效完成特定計算。此外,以大數據分析為代表的數據密集型應用需要高效且大量的數據存儲空間來存儲數據集。

人工智能正朝著更大型的模型發展,模型規模與其對應的參數不斷增加。2019年GPT-2參數規模達15億,2020年GPT-3參數規模達1700億參數,目前已經達到了1萬億的參數規模。

02智能算力概況

智能計算中心指基于GPU、FPGA等芯片構建智能計算服務器集群,提供智能算力的基礎設施。主要應用于多模態數據挖掘,智能化業務高性能計算、海量數據分布式存儲調度、人工智能模型開發、模型訓練和推理服務等場景。

自2020年4月,人工智能正式被納入新基建的范疇,我國已經在20多個城市陸續啟動了人工智能計算中心建設。2022年2月,“東數西算”工程正式全面啟動,8個國家算力樞紐節點全面開工。根據中國信息通信研究院2023年發布的《中國綜合算力評價白皮書》,截至2022年底,我國算力總規模達到180EFLOPS,智能算力規模占比約22.8%,相比2021年增加41.4%,智能算力增長迅速。根據ICPA智算聯盟統計,截至2022年3月,我國人工智能計算中心已投運的近20個,在建設的超過20個。預計到2025年,我國的AI算力總量將超過1800EFLOPS,占總算力的比重將超過85%。

表:長三角人工智能計算中心情況

wKgaomUzKpqAVRYyAACM_-bCJLk518.jpg

數據來源:2023人工智能發展白皮書

03AI數據中心網絡流量特征及技術要求

根據權威定義,智能計算中心是基于最新人工智能理論,采用領先的人工智能計算架構,提供人工智能應用所需算力服務、數據服務和算法服務的公共算力新型基礎設施,通過算力的生產、聚合、調度和釋放,高效支撐數據開放共享、智能生態建設、產業創新聚集,有力促進AI產業化、產業AI化及政府治理智能化。

AI模型從生產到應用,一般要經歷離線訓練和推理部署兩個階段。離線訓練是產生模型的過程,通過訓練模型的數據集及算法,經過多輪迭代,最終生成訓練后的模型。這一過程核心是數據計算。通常為了提升計算效率,通過GPU等異構芯片實現加速。人工智能模型訓練和推理過程需要強大的算力。人工智能的深度學習計算包含大量的矩陣乘加運算。AI加速芯片如GPU、FPGA、ASIC等能夠提供相較于CPU10~100倍的加速。AI服務器通常以CPU+AI加速芯片為主體,構成智算中心的基本單元。其中:

# CPU

通用處理器,用于人機交互和復雜條件分支處理,以及任務之間的同步協調。

# GPU

應用于深度學習等對并行計算、浮點計算要求高的領域。開發周期短,技術體系成熟。

# FPGA

在推演階段算法性能高、功耗和延遲低。適用于壓縮/解壓縮、圖片加速、網絡加速、金融加速等場景。

ASIC,專用芯片,滿足特定修的定制化芯片,體積小、功耗低、計算性能高、計算效率高、芯片出貨量越大成本越低,包括TPU、NPU、VPU、BPU等各類芯片。

# ASIC

專用芯片,滿足特定修的定制化芯片,體積小、功耗低、計算性能高、計算效率高、芯片出貨量越大成本越低,包括TPU、NPU、VPU、BPU等各類芯片。

由于AI模型計算對算力的消耗大,單個AI計算單元難以滿足算力需求。同時,為了縮短訓練時間,通常采用分布式技術對模型和數據進行切分,將訓練任務分解為多個子任務,在多個計算節點上同時進行。每個計算節點完成計算任務后,需要進行結果的聚合,完成每一輪次的學習。在這一過程中,多個AI芯片之間需要高速互聯,AI服務器之間需要高速通信。因而,需要智算中心網絡提供低時延、大帶寬、穩定運行的保障,并能夠支持大規模計算節點,能夠提供方便運維的手段。

低時延

人工智能模型參數規模巨大。預計2025年將達到百萬億級。借助NVMe等接口協議,存儲介質訪問速率大幅提升,網絡時延占比上升到65%,需要采用先進網絡設計,降低網絡時延。數據中心網絡的時延主要包括:靜態時延、網絡跳數、動態時延以及入網次數。其中,靜態時延由查表與轉發時延組成,約600ns-1us。網絡跳數指網絡包經過的設備節點數,不同節點處理時延。該時延與網絡架構有關系。動態時延由消息隊列產生,該時延與網絡擁塞情況相關。當網絡擁塞時,數據包在網絡設備中排隊,或者被丟棄,從而產生時延。入網次數指數據進入網絡的次數。分布式訓練系統的時延包括單卡的計算時間和卡間通信時間。智算中心網絡需要降低卡間通信時間,以提升加速比。降低卡間通信時間通常采用RDMA技術,通過繞過操作系統內核的方式,提升數據訪問效率。

大帶寬

單節點計算任務的分配以及計算結果的搜集需要大帶寬支撐,以快速進行模型參數的迭代計算。以智算中心典型的服務節點為例,單個服務節點可以配置8張GPU卡,8張PCIe網卡。兩個GPU跨機互通的突發帶寬可能達到50Gbps。一般每個GPU關聯一個100Gbps網絡端口,單機對外帶寬達到800Gbps。

穩定運行

大模型的計算量大、訓練時間長,訓練期間涉及節點間的頻繁交互,對網絡穩定性要求高。如果訓練期間網絡出現不穩定,輕則將回退到上一個分布式訓練的斷點,重則可能要從0開始,會影響整個訓練任務進度。智算中心支撐自動駕駛、智能工廠、遠程醫療等行業應用,這些行業應用對網絡可靠性要求極高,業務中斷會給客戶帶來重大損失。

智算中心網絡要求彈性和可擴展性,支持大規模計算集群,在提供高速連接能力的同時,提供軟件定義的加速能力,實現網絡的控制和轉發分離,減少多維分布式任務帶來的性能損耗,提高網絡的利用率,支持彈性裸金屬服務器、自定義業務功能等特性。

大規模

分布式訓練中涉及萬級別以GPU為代表的計算節點,智算中心網絡需要具備支持大規模節點的能力,且能夠方便擴展,為持續增長的算力要求提供接入能力。在智算中心中,多種處理架構并存,NPU(Neural-Network Processing Unit)嵌入式神經網絡處理器、VPU(Vector Processing Unit)矢量處理器、GPU等智算中心節點數量將達到百萬級。智算中心需要支持算力調度,通過對應用分析和監管,優化算力設備布局規劃,提升業務部署效能,提高算力設備的利用率,降低設備閑置率,提升智算中心的生產效率。算力調度涉及配額策略、共享超分、負載均衡等策略。

可運維、可運營

智算中心節點眾多,需要具備可運維性、可管理性,能夠實時查看智算中心網絡運行狀態,快速發現和定位網絡問題。智算中心中,傳統的人機接口變為機器與機器之間的接口,網絡、存儲、計算邊界模糊,故障定位困難,需要引入智能引擎,對應用流量與網絡狀態進行關聯分析,為業務網絡提供自愈能力,打造自動駕駛網絡。智算中心以云服務模式提供算力服務,不同租戶算力需求不同。智算中心需要實現租戶間的數據和算力的隔離。

高效智算中心間互聯

隨著東數西算戰略推進及分布式算力協同場景,AI算力突破了單一的智算中心,新型應用依賴多個智算中心之間的協同。智算中心之間的連接要求更高,需要具備更高的帶寬(百G甚至上T),更低的丟包率。算力之間的聯網和統一調度成為趨勢。

此外,在AI訓練以及使用過程中,還需要處理好存儲問題:解決好處理器內部、處理器和內存、內存和外存以及服務器之間等不同層級數據存取的效率問題。

04AI數據中心網絡實現方式

《智能計算中心規劃建設指南》中介紹了智能計算中心提供4類算力:

# 生產算力

由AI服務器組成,形成高性能、高吞吐的計算系統,為AI順聯和推理提供基礎計算力。

# 聚合算力

由智能網絡和智能存儲組成,構建高帶寬、低延遲的通信系統和數據平臺。智能網絡、智能存儲采用軟件定義方式,實現文件、對象、塊、大數據存儲服務一體化設計。

# 調度算力

將聚合的CPU、GPU、FPGA、ASIC等算力資源進行標準化和粒度切分,滿足智能應用的算力需求。

# 釋放算力

是指高質量AI模型或AI服務的輸出,促進算力高效釋放轉化為生產力。

這四類算力是智算中心建設的出發點和落腳點。在智算中心網絡在具體實現上,從資源管理角度,主要包括三個路線:

# 以CPU為中心

所有存算資源的管理都運行在CPU上,通過遠端資源的方式使用其他資源。

# 以內存為中心

內存管理分離出來,實現內存的獨立拓展和共享訪問,從而實現高效的數據處理和計算。減少了內存管理開銷,但其他資源依然由CPU管理和調度。

# 以網絡IO為中心

《未來網絡白皮書(2023)以網絡IO為中心的無服務器數據中心》提出了以網絡IO為中心的無服務器數據中心架構,資源去中心化。計算、存儲和網絡等資源都被視為獨立的服務,不同資源的拓展和使用相互獨立。資源之間通過消息傳遞的方式進行通信和協作。網絡通信與安全紫金山實驗室圍繞該理念設計了以網絡IO為中心的無服務器數據中心。通過I/O process Unit解耦存算單元使用和協作的樞紐,其對內負責各存算資源的全接入、驅動等,對外負責資源彼此之間的信息交互;通過分布式內核,實現存算資源按需拓展和彈性使用的軟件架構。

在網絡拓撲架構方面,通常有3種主流設計模式,Fat-Tree架構實現無阻塞轉發,Dragonfly架構網絡直徑小,Torus 具有高擴展性和性價比。

Fat-Tree架構采用1:1無收斂設計。Fat-Tree架構中交換機上聯端口與下聯端口帶寬、數量保持一致,同時交換機要采用無阻塞轉發的數據中心級交換機。Fat-Tree架構可以通過擴展網絡層次提升接入的GPU節點數量。兩層Fat-Tree架構能夠接入PP/2張GPU卡,P為交換機的端口數量。三層Fat-Tree架構能夠接入 P(P/2)*(P/2)張GPU卡。以40端口的InfiniBand交換機為例,能夠接入的GPU數量最多可達16000個。以百度智能云為例,按照服務節點的網卡數量組成AI-Pool,將不同節點相同編號的網口連接到同一臺交換機,通過NCCL通信庫的Rail Local技術以及主機內GPU間的NVSwitch的帶寬,將多機間的跨卡互通轉化為跨機間的同GPU卡號的互通,從而實現同2層Fat-Tree架構下,AI-Pool一跳可達,不同AI-Pool 三跳可達。三層Fat-Tree架構下智算節點間同GPU卡號轉發3跳可達,不同GPU卡號轉發5跳可達。

wKgaomUzKpqAO-qzAAOHRyUvzkA637.png

圖1:Fat-Tree拓撲圖

Dragonfly架構分為三層:Switch層,包含1個交換機及與其相連的計算節點;Group層:包含a個Switch層,a個交換機之間全互聯(每個交換機都有a-1條鏈路連接至其他a-1臺交換機);System層:包含g個Group層,g個Group層全連接。對于單個Switch交換機,有P個端口連接計算節點,a-1個端口連接Group內的其他交換機,h個端口連接到其他Group交換機。每個交換機的端口數為k=p+(a-1)+h??梢越尤氲挠嬎愎濣c總數為N=ap(ah+1),通常按照a=2p=2h配置。采用直連模式,縮短網絡路徑,減少中間節點數量。64端口交換機支持組網規模27萬節點,端到端交換機轉發跳數減至3跳。

wKgZomUzKpqAdV22AAWfkzEIfPk593.png

圖2:Dragonfly拓撲圖

Torus架構,將計算節點按照網格的方式排列,連接同行和同列的相鄰節點,同時同行和同列最遠端的兩個節點之間構建直連線路。有兩種構建方法,一種是直接網絡,計算節點在環面“晶格”中,計算節點適配器負責轉發網絡包。對于2D Torus架構,計算節點適配器需要具備4個端口,對于3D Torus架構,需要6個端口,6個線纜連接到計算節點,將影響計算機節點的散熱。另一種是將交換機放在環面“晶格”中,計算節點只需要具備常規端口數量的網絡適配器,網絡包轉發主要由交換機完成。Torus架構提供的并非是無阻塞的網絡,同時節點之間的距離并非一致,通常通過提升維度來降低時延以及抖動的影響。但是構造成本較低。

wKgZomUzKpqAJseWAAD1Q1vFYOk549.png

圖3:Torus拓撲圖

在互聯協議選擇方面,具體的實現方式包括iWARP、RoCEv1、RoCEv2、InfiniBand四種,后兩種是目前的主流方案,應用層端到端的時間能從50us(TCP/IP),降低到5us(RoCE)或2us(InfiniBand)。此外,可通過可編程網絡設備,在網計算,減少傳輸的數據量,進一步提升傳輸效率。

RoCEv2 采用分布式網絡架構,包括支持RoCEv2的網卡和交換機,借助傳統以太網的光纖和光模塊實現端到端的RDMA通信。交換機轉發芯片以博通Tomahawk系列芯片為主,單端口從100Gbps->200Gbps->400Gbps不斷演進。RoCEv2 中的Go Back N重傳機制采用PFC(優先級流控)實現逐跳流控策略,保證在以太網中實現無丟包。標準RoCEv2協議中每個RC(可靠連接)都映射到唯一的五元組,整網負載均衡性差,容易產生擁塞。RoCEv2通常卸載到網卡中,受限于網卡芯片內的表項空間,芯片內的連接數有限,當網絡節點超過一定規模,會發生網卡芯片與主機內存的連接表交換,影響網絡傳輸性能。

InfiniBand網絡中關鍵組成包括Subnet Manager、InfiniBand網卡、InfiniBand交換機和連接線纜。Subnet Manager即為InfiniBand網絡的控制器,進行InfiniBand子網劃分及QoS管理,向每個交換芯片下發轉發表,通過帶內方式控制子網內所有交換機和網卡。InfiniBand網卡通過SMA(Subnet Manager Agent)接受Subnet Manager的統一管理。InfiniBand交換機不運行路由協議,網絡轉發表通過Subnet Manager統一下發?;贑redit信令機制避免緩沖區溢出丟包,網絡中每條鏈路都有預置緩沖區,發送端一次性發送數據不會超過接收端可用的緩沖區大小。

05小 結

智算中心與普通的數據中心相比 存在大量的異構計算核心,東西向之間的通信流量更大,對時延、抖動、可用性的要求更高,對算力的需求更大,需要從安全性、可靠性、能源使用效率綜合考慮網絡架構設計,最大程度發揮智算中心資源價值。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 服務器
    +關注

    關注

    12

    文章

    8296

    瀏覽量

    83215
  • 網絡
    +關注

    關注

    14

    文章

    7289

    瀏覽量

    87764
  • AI
    AI
    +關注

    關注

    87

    文章

    27184

    瀏覽量

    264958
  • 人工智能
    +關注

    關注

    1781

    文章

    44778

    瀏覽量

    231935
  • 智算中心
    +關注

    關注

    0

    文章

    27

    瀏覽量

    1390

原文標題:一文讀懂智算中心網絡

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    電主軸:教您如何讀懂?|深圳恒興隆機電.

    電主軸:教您如何讀懂?|深圳恒興隆機電電主軸是種利用電機作為驅動源的主軸。它具有高速、高精度和高剛性等特點,廣泛應用于機械加工、數控機床、機器人等領域。本文將詳細介紹電主軸的原理
    發表于 03-27 10:30

    國資委發文鼓勵、Sora開年爆火…智中心的2024注定熱辣滾燙?

    中心Sora
    腦極體
    發布于 :2024年02月27日 16:11:19

    目標讀懂linux內核,有同努力的朋友不?

    。準備用ARM11來作為移植linux的平臺現在在做什么:linux的內核太復雜,牽扯到很多數據結構,我還是剛上大三的本科生,很多數據結構得自己補習。給自己的短期目標就是:讀懂個輕量級的操作系統內核
    發表于 09-19 13:08

    讀懂電阻和電容的不同

    要了解它們的主要參數。般情況下,對電阻器應考慮其標稱阻值、允許偏差和標稱功率;對電容器則需了解其標稱容量、允許偏差和耐壓。讀懂電阻和電容的不同  電阻器和電容器的標稱值和允許偏差
    發表于 11-14 10:25

    【轉帖】讀懂電阻和電容的不同

    的主要參數。般情況下,對電阻器應考慮其標稱阻值、允許偏差和標稱功率;對電容器則需了解其標稱容量、允許偏差和耐壓。讀懂電阻和電容的不同電阻器和電容器的標稱值和允許偏差
    發表于 11-14 15:43

    網絡中心戰構建模型是什么?

    模型逐漸興起。網絡中心戰是種基于全新概念的戰爭,與過去的消耗型戰爭有著本質上的不同,它可以促進作戰*和作戰環境之間的良好結合與互動,指揮行動的快速性和*間的自同步使之成為快速有效的戰爭模型。
    發表于 10-23 06:04

    讀懂接口模塊的組合應用有哪些?

    讀懂接口模塊的組合應用有哪些?
    發表于 05-17 07:15

    讀懂如何去優化AC耦合電容?

    讀懂如何去優化AC耦合電容?
    發表于 06-08 07:04

    讀懂DS18B20溫度傳感器及編程

    讀懂DS18B20溫度傳感器及編程對于新手而言,DS18B20基本概念僅做了解,最重要的是利用單片機對DS18B20進行編程,讀取溫度信息,并把讀取到的溫度信息利用數碼管,LCD1602或者上位
    發表于 07-06 07:10

    讀懂微型電動機

    微型電動機(micro-motor),是體積、容量較小,輸出功率般在數百瓦以下的電機和用途、性能及環境條件要求特殊的電機。全稱微型特種電機,簡稱微電機。常用于控制系統中,實現機電信號或能量的檢測、解、放大、執...
    發表于 09-10 07:02

    讀懂無線充電技術

    讀懂無線充電技術(附方...
    發表于 09-14 06:00

    讀懂ZigBee指的是什么

    ZigBee指的是什么?ZigBee網絡般特性有哪些?ZigBee網絡的硬件和軟件有哪些?
    發表于 09-24 13:31

    讀懂什么是NEC協議

    讀懂什么是NEC協議?
    發表于 10-15 09:22

    讀懂中斷方式和輪詢操作有什么區別嗎

    讀懂中斷方式和輪詢操作有什么區別嗎?
    發表于 12-10 06:00

    讀懂傳感器的原理與結構

    讀懂傳感器傳感器在原理與結構上千差萬別,如何根據具體的測量目的、測量對象以及測量環境合理地選用傳感器,是在進行某個量的測量時首先要解決的問題。當傳感器確定之后,與之相配套的測量方法和測量設備也就
    發表于 01-13 07:08
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>