<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

智算中心網絡架構選型原則

通常，在在AI智算系統中，一個模型從生產到應用，一般包括離線訓練和推理部署兩大階段；本文選自“智算中心網絡架構白皮書（2023）”“智能計算中心規劃建設指南”，常用的對IB和ROCE V2高性能網絡進行全面的分析對比。

智算網絡的選型和建設階段的典型問題包括：

1. 智算網絡是復用當前的TCP/IP通用網絡的基礎設施，還是新建一張專用的高性能網絡？

2. 智算網絡技術方案采用 InfiniBand 還是 RoCE ？

3. 智算網絡如何進行運維和管理？

4. 智算網絡是否具備多租戶隔離能力以實現對內和對外的運營？

離線訓練，就是產生模型的過程。用戶需要根據自己的任務場景，準備好訓練模型所需要的數據集以及神經網絡算法。模型訓練開始后，先讀取數據，然后送入模型進行前向計算，并計算與真實值的誤差。然后執行反向計算得到參數梯度，最后更新參數。訓練過程會進行多輪的數據迭代。訓練完成之后，保存訓練好的模型，然后將模型做上線部署，接受用戶的真實輸入，通過前向計算，完成推理。因此，無論是訓練還是推理，核心都是數據計算。為了加速計算效率，一般都是通過 GPU 等異構加速芯片來進行訓練和推理。

隨著以 GPT3.0 為代表的大模型展現出令人驚艷的能力后，智算業務往海量參數的大模型方向發展已經成為一個主流技術演進路徑。以自然語言處理（NLP）為例，模型參數已經達到了千億級別。計算機視覺（CV）、廣告推薦、智能風控等領域的模型參數規模也在不斷的擴大，正在往百億和千億規模參數的方向發展。

在自動駕駛場景中，每車每日會產生 T 級別數據，每次訓練的數據達到 PB 級別。大規模數據處理和大規模仿真任務的特點十分顯著，需要使用智算集群來提升數據處理與模型訓練的效率。

大模型訓練中大規模的參數對算力和顯存都提出了更高的要求。以GPT3為例，千億參數需要2TB顯存，當前的單卡顯存容量不夠。即便出現了大容量的顯存，如果用單卡訓練的話也需要32年。為了縮短訓練時間，通常采用分布式訓練技術，對模型和數據進行切分，采用多機多卡的方式將訓練時長縮短到周或天的級別。

分布式訓練就是通過多臺節點構建出一個計算能力和顯存能力超大的集群，來應對大模型訓練中算力墻和存儲墻這兩個主要挑戰。而聯接這個超級集群的高性能網絡直接決定了智算節點間的通信效率，進而影響整個智算集群的吞吐量和性能。要讓整個智算集群獲得高的吞吐量，高性能網絡需要具備低時延、大帶寬、長期穩定性、大規模擴展性和可運維幾個關鍵能力。

分布式訓練系統的整體算力并不是簡單的隨著智算節點的增加而線性增長，而是存在加速比，且加速比小于 1。存在加速比的主要原因是：在分布式場景下，單次的計算時間包含了單卡的計算時間疊加卡間通信時間。因此，降低卡間通信時間，是分布式訓練中提升加速比的關鍵，需要重點考慮和設計。

降低多機多卡間端到端通信時延的關鍵技術是 RDMA 技術。RDMA 可以繞過操作系統內核，讓一臺主機可以直接訪問另外一臺主機的內存。

實現 RDMA 的方式有 InfiniBand、RoCEv1、RoCEv2、i WARP 四種。其中 RoCEv1 技術當前已經被淘汰，iWARP 使用較少。當前 RDMA 技術主要采用的方案為 InfiniBand 和 RoCEv2 兩種。

在 InfiniBand 和 RoCEv2 方案中，因為繞過了內核協議棧，相較于傳統 TCP/IP 網絡，時延性能會有數十倍的改善。在同集群內部一跳可達的場景下，InfiniBand 和 RoCEv2 與傳統 IP 網絡的端到端時延在實驗室的測試數據顯示，繞過內核協議棧后，應用層的端到端時延可以從 50us（TCP/IP），降低到 5us（RoCE）或 2us（InfiniBand）。

在完成計算任務后，智算集群內部的計算節點需要將計算結果快速地同步給其他節點，以便進行下一輪計算。在結果同步完成前，計算任務處于等待狀態，不會進入下一輪計算。如果帶寬不夠大，梯度傳輸就會變慢，造成卡間通信時長變長，進而影響加速比。

要滿足智算網絡的低時延、大帶寬、穩定運行、大規模以及可運維的需求，目前業界比較常用的網絡方案是 InfiniBand方案和 RoCEv2 方案。

一、InfiniBand網絡介紹

InfiniBand網絡的關鍵組成包括Subnet Manager（SM）、InfiniBand 網卡、InfiniBand交換機和InfiniBand連接線纜。

支持 InfiniBand 網卡的廠家以 NVIDIA 為主。下圖是當前常見的 InfiniBand 網卡。InfiniBand 網卡在速率方面保持著快速的發展。200Gbps 的 HDR 已經實現了規?；纳逃貌渴?，400Gbps 的 NDR的網卡也已經開始商用部署。

在InfiniBand交換機中，SB7800 為 100Gbps 端口交換機（36*100G），屬于 NVIDIA 比較早的一代產品。Quantum-1 系列為 200Gbps 端口交換機（40*200G），是當前市場采用較多的產品。

在 2021 年，NVIDIA 推出了 400Gbps 的 Quantum-2 系列交換機（64*400G）。交換機上有 32 個 800G OSFP（Octal Small Form Factor Pluggable）口，需要通過線纜轉接出 64 個 400G QSFP。

InfiniBand 交換機上不運行任何路由協議。整個網絡的轉發表是由集中式的子網管理器（Subnet Manager，簡稱 SM）進行計算并統一下發的。除了轉發表以外，SM 還負責管理 InfiniBand 子網的 Partition、QoS 等配置。InfiniBand 網絡需要專用的線纜和光模塊做交換機間的互聯以及交換機和網卡的互聯。

InfiniBand 網絡方案特點

（1）原生無損網絡

InfiniBand 網絡采用基于 credit 信令機制來從根本上避免緩沖區溢出丟包。只有在確認對方有額度能接收對應數量的報文后，發送端才會啟動報文發送。InfiniBand 網絡中的每一條鏈路都有一個預置緩沖區。發送端一次性發送數據不會超過接收端可用的預置緩沖區大小，而接收端完成轉發后會騰空緩沖區，并且持續向發送端返回當前可用的預置緩沖區大小。依靠這一鏈路級的流控機制，可以確保發送端絕不會發送過量，網絡中不會產生緩沖區溢出丟包。

（2）萬卡擴展能力

InfiniBand 的 Adaptive Routing 基于逐包的動態路由，在超大規模組網的情況下保證網絡最優利用。InfiniBand 網絡在業界有較多的萬卡規模超大 GPU 集群的案例，包括百度智能云，微軟云等。

目前市場上主要的 InfiniBand 網絡方案及配套設備供應商有以下幾家。其中，市場占有率最高的是 NVIDIA，其市場份額大于 7 成。

NVIDIA：NVIDIA是InfiniBand技術的主要供應商之一，提供各種InfiniBand適配器、交換機和其他相關產品。

Intel Corporation：Intel是另一個重要的InfiniBand供應商，提供各種InfiniBand網絡產品和解決方案。

Cisco Systems：Cisco是一家知名的網絡設備制造商，也提供InfiniBand交換機和其他相關產品。

Hewlett Packard Enterprise：HPE是一家大型IT公司，提供各種InfiniBand網絡解決方案和產品，包括適配器、交換機和服務器等。

2、RoCEv2 網絡介紹

InfiniBand 網絡在一定程度上是一個由 SM（Subnet Manager，子網管理器）進行集中管理的網絡。而 RoCEv2 網絡則是一個純分布式的網絡，由支持 RoCEv2 的網卡和交換機組成，一般情況下是兩層架構。

支持 RoCE 網卡的廠家比較多，主流廠商為 NVIDIA、Intel、Broadcom。數據中心服務器網卡主要以 PCIe 卡為主。RDMA 網卡的端口 PHY 速率一般是 50Gbps 起，當前商用的網卡單端口速率已達 400Gbps。

當前大部分數據中心交換機都支持 RDMA 流控技術，和 RoCE 網卡配合，實現端到端的 RDMA 通信。國內的主流數據中心交換機廠商包括華為、新華三等。

高性能交換機的核心是轉發芯片。當前市場上的商用轉發芯片用的比較多的是博通的 Tomahawk 系列芯片。其中Tomahawk3 系列的芯片在當前交換機上使用的比較多，市場上支持 Tomahawk4 系列的芯片的交換機也逐漸增多。

RoCEv2 承載在以太網上，所以傳統以太網的光纖和光模塊都可以用。

RoCEv2 網絡方案特點

RoCE 方案相對于 InfiniBand 方案的特點是通用性較強和價格相對較低。除用于構建高性能 RDMA 網絡外，還可以在傳統的以太網絡中使用。但在交換機上的 Headroom、PFC、ECN 相關參數的配置是比較復雜的。在萬卡這種超大規模場景下，整個網絡的吞吐性能較 InfiniBand 網絡要弱一些。

支持 RoCE 的交換機廠商較多，市場占有率排名靠前的包括新華三、華為等。支持 RoCE 的網卡當前市場占有率比較高的是 NVIDIA 的 ConnectX 系列的網卡。

3、InfiniBand 和 RoCEv2網絡方案對比

從技術角度看，InfiniBand 使用了較多的技術來提升網絡轉發性能，降低故障恢復時間，提升擴展能力，降低運維復雜度。

具體到實際業務場景上看，RoCEv2 是足夠好的方案，而 InfiniBand 是特別好的方案。

業務性能方面：由于 InfiniBand 的端到端時延小于 RoCEv2，所以基于 InfiniBand 構建的網絡在應用層業務性能方面占優。但 RoCEv2 的性能也能滿足絕大部分智算場景的業務性能要求。

業務規模方面： InfiniBand 能支持單集群萬卡 GPU 規模，且保證整體性能不下降，并且在業界有比較多的商用實踐案例。RoCEv2 網絡能在單集群支持千卡規模且整體網絡性能也無太大的降低。

業務運維方面： InfiniBand 較 RoCEv2 更成熟，包括多租戶隔離能力，運維診斷能力等。

業務成本方面： InfiniBand 的成本要高于 RoCEv2，主要是 InfiniBand 交換機的成本要比以太交換機高一些。

業務供應商方面： InfiniBand 的供應商主要以 NVIDIA 為主，RoCEv2 的供應商較多。

責任編輯：彭菁

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
27

文章
4478

瀏覽量
127196
顯存

顯存

+關注

關注
0

文章
105

瀏覽量
13578
模型

模型

+關注

關注
1

文章
2790

瀏覽量
47924
網絡架構

網絡架構

+關注

關注
1

文章
88

瀏覽量
12438
智算中心

智算中心

+關注

關注
0

文章
27

瀏覽量
1376

原文標題：智算中心網絡架構選型及對比

文章出處：【微信號：AI_Architect，微信公眾號：智能計算芯世界】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

國資委發文鼓勵、Sora開年爆火…智算中心的2024注定熱辣滾燙？

智算中心Sora

腦極體

發布于 :2024年02月27日 16:11:19

TVS管的選型原則

TVS管的選型原則

發表于 01-03 16:04

ESD選型原則

優恩半導體ESD選型原則

發表于 08-19 15:33

元器件選型基本原則

一、元器件選型基本原則：　　a）普遍性原則：所選的元器件要是被廣泛使用驗證過的，盡量少使用冷門、偏門芯片，減少開發風險?！　）高性價比原則：在功能、性能、使用率都相近的情況下，盡量選

發表于 04-26 15:42

元器件的選型原則分享

原則：盡量選擇以前老產品用過的元器件?！、資源節約原則：盡量用上元器件的全部功能和管腳。芯片的選型過程是對各個維度考量的折衷。

發表于 10-29 08:46

元器件如何選型，選型原則分享

一、元器件選型基本原則a、普遍性原則：所選的元器件要是被廣泛使用驗證過的，盡量少使用冷門、偏門芯片，減少開發風險?！、高性價比原則：在功能、性能、使用率都相近的情況下，盡量選擇價格比

發表于 10-30 09:34

MOS設計選型的基本原則

6個MOS設計選型的基本原則

發表于 03-18 07:04

伺服電機選型有哪些原則？

伺服電機選型有哪些原則？

發表于 09-27 07:58

伺服電機的選型原則

伺服電機的選型原則

發表于 03-04 17:56 ?7次下載

步進電機選型原則你都知道嗎_步進電機選型誤區盤點

本文主要介紹步進電機選型原則及選型的誤區盤點，首先介紹的是選型的原則，其次介紹了步進電機選擇的要素及選型

發表于 04-25 15:22 ?4041次閱讀

PID控制器選型基本原則

PID控制器選型應根據控制對象特性及生產過程對控制系統的要求進行，PID控制器選型基本原則如下：

發表于 06-14 11:10 ?1556次閱讀

科普繞線磁環電感線圈的選型原則

科普繞線磁環電感線圈的選型原則gujing 編輯：谷景電子大家都明白電感的種類有很多，當然繞線磁環電感線圈就是最近使用比較多的一種電感產品。關于繞線磁環電感線圈使用方面的問題，我們關注比較多的就是

發表于 04-03 15:14 ?1398次閱讀

磁環共模電感選型原則是什么

磁環共模電感作為一類大家都了解的電感產品，它是特別重要的一種電器元器件。磁環共模電感型號眾多，不同型號的磁環共模電感在物理形態以及性能上相差較大。要讓磁環共模電感在電路中充分發揮它的作用，選型工作至關重要。磁環共模電感如何選型一直困擾著很多人，本篇谷景就與大家探討一下磁環

發表于 08-09 12:37 ?732次閱讀

低壓斷路器選型的一般原則

本文將介紹低壓斷路器的選型原則及方法，包括低壓電器選型的一般原則、斷路器的選型、配電用斷路器的選型

發表于 11-06 09:28 ?1706次閱讀

貼片電感選型原則

電子發燒友網站提供《貼片電感選型原則.docx》資料免費下載

發表于 12-28 09:15 ?3次下載

智能計算芯世界
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 2023年CPU&GPU天梯圖（最新版）
Hot 十大國產GPU產品及規格概述

New 英偉達Blackwell平臺網絡配置分析
New 一文詳解超算中的InfiniBand網絡、HDR與IB

精選推薦
更多

文章

資料

帖子

采用144核，能效提升66%！英特爾至強6處理器震撼上市，加速數據中心升級

章鷹觀察
16小時前

804 閱讀

如何移植FFmpeg

ElfBoard
2天前

572 閱讀

基于Arm Cortex-CM85內核的RA8D1作為控制器通過MIPI DSI實現LVGL顯示

瑞薩MCU小百科
2天前

801 閱讀

便攜式直流接地故障查找儀如何使用——每日了解電力知識

武漢摩恩
2天前

817 閱讀

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
2天前

818 閱讀

MicroK8s minikube的替代品

成爾秩
0.35 MB

免費

1下載

RegexTester測試正則表達式

吳湛
0.20 MB

免費

2下載

Allusion圖像庫管理工具

王莉
18.64 MB

免費

7下載

Yue GUI應用程序的庫

djfldsthtr
1.24 MB

免費

0下載

1.5-A至4.1-A帶I的多LED相機閃光燈驅動器TPS6132x數據表

哈哈哈
2.98MB

免費

0下載

I.MX6ULL-飛凌 ElfBoard ELF1板卡 - 如何在Ubuntu中編譯OpenCV庫(X86架構）

jf_25331175
3天前

726 閱讀

鴻蒙原生應用元服務開發-設備管理USB服務開發場景與接口

李洋水蛟龍
3天前

303 閱讀

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
3天前

911 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
4天前

999 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
4天前

1502 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看