<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

智能計算中心規劃建設指南

架構師技術聯盟 ? 來源:智算中心網絡架構白皮書 ? 2023-08-09 09:49 ? 次閱讀

傳統的云數據中心網絡一般是基于對外提供服務的流量模型而設計的,流量主要是從數據中心到最終客戶,即以南北向流量為主,云內部東西向流量為輔。承載 VPC 網絡的底層物理網絡架構,對于承載智算業務存在如下挑戰。

本文選自“智算中心網絡架構白皮書(2023)”“智能計算中心規劃建設指南”,對傳統網絡與智算網絡、兩層胖樹、三次胖樹及全面的分析對比,并介紹了組網最佳實踐。

有阻塞網絡:考慮到并非所有服務器都會同時對外產生流量,為了控制網絡建設成本, Leaf 交換機的下聯帶寬和上聯帶寬并非按照 1:1 設計,而是存在收斂比。一般上聯帶寬僅有下聯帶寬的三分之一。

云內部流量時延相對較高:跨 Leaf 交換機的兩臺服務器互訪需要經過 Spine 交換機,轉發路徑有 3 跳。

帶寬不夠大:一般情況下單物理機只有一張網卡接入 VPC 網絡,單張網卡的帶寬比較有限,當前較大范圍商用的網卡帶寬一般都不大于 200Gbps。

對于智算場景,當前比較好的實踐是獨立建一張高性能網絡來承載智算業務,滿足大帶寬,低時延,無損的需求。

大帶寬的設計

智算服務器可以滿配 8 張 GPU 卡,并預留 8 個 PCIe 網卡插槽。在多機組建 GPU 集群時,兩個 GPU 跨機互通的突發帶寬有可能會大于 50Gbps。因此,一般會給每個 GPU 關聯一個至少 100Gbps 的網絡端口。在這種場景下可以配置 4張 2*100Gbps 的網卡,也可以配置 8 張 1*100Gbps 的網卡,當然也可以配置 8 張單端口 200/400Gbps 的網卡。

7fed62ee-3643-11ee-9e74-dac502259ad0.png

無阻塞設計

無阻塞網絡設計的關鍵是采用 Fat-Tree(胖樹)網絡架構。交換機下聯和上聯帶寬采用 1:1 無收斂設計,即如果下聯有64 個 100Gbps 的端口,那么上聯也有 64 個 100Gbps 的端口。

此外交換機要采用無阻塞轉發的數據中心級交換機。當前市場上主流的數據中心交換機一般都能提供全端口無阻塞的轉發能力。

低時延設計 AI-Pool

在低時延網絡架構設計方面,百度智能云實踐和落地了基于導軌(Rail)優化的AI-Pool 網絡方案。在這個網絡方案中,8 個接入交換機為一組,構成一個 AI-Pool。以兩層交換機組網架構為例,這種網絡架構能做到同 AI-Pool 的不同智算節點的 GPU 互訪僅需一跳。

在 AI-Pool 網絡架構中,不同智算節點間相同編號的網口需要連接到同一臺交換機。如智算節點 1 的 1 號 RDMA 網口,智算節點 2 的 1 號 RDMA 網口直到智算節點 P/2 的 1 號 RDMA 網口都連到 1 號交換機。

在智算節點內部,上層通信庫基于機內網絡拓撲進行網絡匹配,讓相同編號的 GPU 卡和相同編號的網口關聯。這樣相同GPU 編號的兩臺智算節點間僅一跳就可互通。

不同GPU編號的智算節點間,借助NCCL通信庫中的Rail Local技術,可以充分利用主機內GPU間的NVSwitch的帶寬,將多機間的跨卡號互通轉換為跨機間的同GPU卡號的互通。

80098bcc-3643-11ee-9e74-dac502259ad0.png

對于跨 AI-Pool 的兩臺物理機的互通,需要過匯聚交換機,此時會有 3 跳。

80232d2a-3643-11ee-9e74-dac502259ad0.png

網絡可承載的 GPU 卡的規模和所采用交換機的端口密度、網絡架構相關。網絡的層次多,承載的 GPU 卡的規模會變大,但轉發的跳數和時延也會變大,需要結合實際業務情況進行權衡。

兩層胖樹架構

8 臺接入交換機組成一個智算資源池 AI-Pool。圖中 P 代表單臺交換機的端口數。單臺交換機最大可下聯和上聯的端口為P/2 個,即單臺交換機最多可以下聯 P/2 臺服務器和 P/2 臺交換機。兩層胖樹網絡可以接入 P*P/2 張 GPU 卡。

80557eb0-3643-11ee-9e74-dac502259ad0.png

三層胖樹架構

三層網絡架構中會新增匯聚交換機組和核心交換機組。每個組里面的最大交換機數量為 P/2。匯聚交換機組最大數量為 8,核心交換機組的最大數量為 P/2。三層胖樹網絡可以接入 P*(P/2)*(P/2)=P*P*P/4 張 GPU 卡。

在三層胖樹組網中,InfiniBand 的 40 端口的 200Gbps HDR 交換機能容納的最多 GPU 數量是 16000。這個 16000GPU 卡的規模也是目前 InfiniBand 當前在國內實際應用的 GPU 集群的最大規模網絡,當前這個記錄被百度保持。

8082aa66-3643-11ee-9e74-dac502259ad0.png

兩層和三層胖樹網絡架構的對比

可容納的 GPU 卡的規模

兩層胖樹和三層胖樹最重要的區別是可以容納的 GPU 卡的規模不同。在下圖中 N 代表 GPU 卡的規模,P 代表單臺交換機的端口數量。比如對于端口數為 40 的交換機,兩層胖樹架構可容納的 GPU 卡的數量是 800 卡,三層胖樹架構可容納的 GPU 卡的數量是 16000 卡。

80cbbf12-3643-11ee-9e74-dac502259ad0.png

轉發路徑

兩層胖樹和三層胖樹網絡架構另外一個區別是任意兩個節點的網絡轉發路徑的跳數不同。

對于同智算資源池 AI-Pool 的兩層胖樹架構,智算節點間同 GPU 卡號轉發跳數為 1 跳。智算節點間不同 GPU 卡號在沒有做智算節點內部 Rail Local 優化的情況下轉發跳數為 3 跳。

對于同智算資源池 AI-Pool 的三層胖樹架構,智算節點間同 GPU 卡號轉發跳數為 3 跳。智算節點間不同 GPU 卡號在沒有做智算節點內部 Rail Local 優化的情況下轉發跳數為 5 跳。

80ecb71c-3643-11ee-9e74-dac502259ad0.png

典型實踐

不同型號的 InfiniBand/RoCE 交換機和不同的網絡架構下所支持的 GPU 的規模不同。結合當前已成熟商用的交換機,我們推薦幾種物理網絡架構的規格供客戶選擇。

Regular:InfiniBand 兩層胖樹網絡架構,基于 InfiniBand HDR 交換機,單集群最大支持 800 張 GPU 卡。

Large:RoCE 兩層胖樹網絡架構,基于 128 端口 100G 數據中心以太交換機,單集群最大支持 8192 張 GPU 卡。

XLarge:InfiniBand 三層胖樹網絡架構,基于 InfiniBand HDR 交換機,單集群最大支持 16000 張 GPU 卡。

XXLarge:基于 InfiniBand Quantum-2 交換機或同等性能的以太網數據中心交換機,采用三層胖樹網絡架構,單集群最大支持 100000 張 GPU 卡。

810b9466-3643-11ee-9e74-dac502259ad0.png

Large智算物理網絡架構實踐

支撐上層創新應用和算法落地的關鍵環節之一是底層的算力,而支撐智算集群的算力發揮其最大效用的關鍵之一是高性能網絡。度小滿的單個智算集群的規??蛇_ 8192 張 GPU 卡,在每個智算集群內部的智算資源池 AI-Pool 中可支持 512張 GPU 卡。通過無阻塞、低時延、高可靠的網絡設計,高效的支撐了上層智算應用的快速迭代和發展。

XLarge智算物理網絡架構實踐

為了實現更高的集群運行性能,百度智能云專門設計了適用于超大規模集群的 InfiniBand 網絡架構。該網絡已穩定運行多年,2021 年建設之初就直接采用了 200Gbps 的 InfiniBand HDR 交換機,單臺 GPU 服務器的對外通信帶寬為1.6Tbps。

責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 帶寬
    +關注

    關注

    3

    文章

    844

    瀏覽量

    40301
  • 服務器
    +關注

    關注

    12

    文章

    8271

    瀏覽量

    83056
  • 交換機
    +關注

    關注

    19

    文章

    2493

    瀏覽量

    96006
  • 數據中心
    +關注

    關注

    15

    文章

    4290

    瀏覽量

    70648
  • 智能計算
    +關注

    關注

    0

    文章

    156

    瀏覽量

    16425

原文標題:智算中心網絡架構設計實踐(2023)

文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    多個城市人工智能計算中心陸續上線

    開發、模型訓練和模型推理等場景,提供從底層芯片算力釋放到頂層應用使能的人工智能全棧能力。 ? 當前,采用集約化方式建設公共算力已形成廣泛共識,全國有20多個城市正在建設或準備建設人工
    的頭像 發表于 06-01 00:01 ?3160次閱讀

    智算中心網絡架構選型原則

    ? 通常,在在AI智算系統中,一個模型從生產到應用,一般包括離線訓練和推理部署兩大階段;本文選自“ 智算中心網絡架構白皮書(2023) ”“ 智能計算中心規劃
    的頭像 發表于 08-07 09:13 ?1832次閱讀

    基建狂魔又一大工程,智算中心

    AI時代下的新型基礎設施。而專注在AI算力上這一點,也讓其有別于超算中心和云數據中心。 ? 2020年4月,國家發改委也聯合浪潮,對這一新型基礎設施發布了《智能計算中心
    的頭像 發表于 09-08 09:23 ?4123次閱讀

    請問各位大俠此濾波電路如何計算中心頻率f0和帶寬

    本帖最后由 gk320830 于 2015-3-8 20:09 編輯 請問各位大俠此濾波電路如何計算中心頻率f0和帶寬。
    發表于 12-20 14:33

    請問各位大俠此帶通濾波電路如何計算中心頻率f0和帶寬

    請問各位大俠此帶通濾波電路如何計算中心頻率f0和帶寬
    發表于 12-26 20:13

    【亞派·資訊】電力發展“十三五”規劃:推進“互聯網+”智能電網建設

    接納和優化配置多種能源的能力,滿足多元用戶供需互動。全面建設智能變電站。全面推廣智能調度控制系統,應用大數據、云計算、物聯網、移動互聯網技術,提升信息平臺承載能力和業務應用水平。
    發表于 08-29 15:35

    臺灣將建設計算中心并成立公司

    臺灣將建設計算中心并成立公 臺灣將建設計算中心并成立公司
    發表于 01-26 17:03 ?751次閱讀

    曙光聯手北京計算中心 打造云計算聯合實驗室

    近日,國內知名服務器廠商曙光公司與國內最大的工業云計算中心北京市計算中心對外宣布共同聯手建設"北京市計算中心曙光 云計算聯合實驗室"(以下簡
    發表于 01-04 15:50 ?878次閱讀

    站在風口 本土AI智能計算中心蓄勢待發

    作為全國領先的智能計算中心,“灃東新城智能計算中心”于6月正式發布了AI開放創新平臺——灃云平臺,平臺現已上線并開放免費公測,用戶注冊、登錄后即可進行AI
    發表于 07-31 11:30 ?614次閱讀

    深扒北京超級云計算中心背后的故事

    據了解,北京超級云計算中心成立于2011年,依托中國科學院計算機網絡信息中心建立,由北京北龍超級云計算有限責任公司負責運營,是懷柔科學城北京市人民政府與中國科學院共同
    的頭像 發表于 12-21 15:39 ?5050次閱讀

    許昌市政府與華為共同建設中原人工智能計算中心

    集微網消息,據河南日報報道,1月30日,許昌市政府與華為公司簽署戰略合作協議,共同建設中原人工智能計算中心。此舉對于加快許昌人工智能產業發展、完善黃河鯤鵬計算產業生態具有重要意義。 根
    的頭像 發表于 02-01 17:35 ?2054次閱讀

    沈陽人工智能計算中心正式上線并網投入運行

    【中國,沈陽,2022年8月9日】東北首座人工智能計算中心——沈陽人工智能計算中心(簡稱“沈陽智算”)正式上線并網投入運行。
    發表于 08-10 09:53 ?1106次閱讀

    沈陽人工智能計算中心正式上線并網

    “北方算谷”啟幕暨沈陽人工智能計算中心上線并網儀式在遼寧省沈陽市渾南區舉行。作為東北地區目前接入中國算力網絡的唯一節點,沈陽人工智能計算中心將通過鵬城實驗室聯通全國算力企業和
    發表于 08-11 09:52 ?495次閱讀

    人工智能計算中心是干什么的

    人工智能計算中心是干什么的? 人工智能計算中心是指一種計算機設施,專門用于進行人工智能領域的研究
    的頭像 發表于 08-15 16:06 ?1026次閱讀

    數通365案例 | 全國首個人工智能計算中心,新以太助力武漢"最強大腦"

    武漢人工智能計算中心是科技部已批復的15個國家人工智能創新發展試驗區中率先投入運營的項目。武漢人工智能計算中心
    的頭像 發表于 12-07 18:15 ?367次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>