<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

星脈網絡深度解析:GOR全鏈路流量規劃與擁塞控制機制

SDNLAB ? 來源:鵝廠網事 ? 2024-04-06 04:44 ? 次閱讀

轉載自:

作者:Rock、付博睿

前言

DCN(Data Center Network)數據中心網絡是現代信息技術基礎設施的重要組成部分。它提供了連接與通信的基礎,支撐數據中心內外部各種應用和服務。作為一個復雜的網絡系統,DCN承載著大量數據流量和通信需求,為AI、大數據、云計算等關鍵技術提供基礎底座。

在傳統DCN中,CPU被用作核心來處理復雜的計算任務和少量數據。然而,隨著AI人工智能的迅速發展,GPU的重要性日益凸顯。作為一種高度并行的硬件加速器,GPU非常適合處理AI所需的大量數據。AI的快速發展不僅增加了對GPU計算能力的需求,還對網絡的傳輸和穩定性提出了新的挑戰,傳統的DCN已經無法滿足AI大模型訓練的需求。在這個背景下,傳統的以CPU為核心的DCN正在向全新的以GPU為核心的星脈AI高性能網絡演進升級。騰訊星脈AI高性能網絡專為AI大模型而設計,提供大帶寬、高利用率以及零丟包的高性能網絡服務,以保障AI大模型的訓練效率。星脈AI高性能網絡架構如圖1所示,包括:高速自研交換機、端網協同的擁塞控制+負載均衡TiTa+GOR(Global Optimized Routing)、高性能集合通信庫TCCL(Tencent Collective Communication Library)以及端到端運營系統GOM(Global Optimized Monitoring)。

4f5ee1e4-f00a-11ee-a297-92fbcf53809c.png

圖1.星脈AI高性能網絡 在傳統DCN中,我們已經廣泛應用網絡控制器來實現網絡變更灰度和路由監控,以確保網絡的穩定性,此時的控制器叫做DCN控制器1.0。然而,在星脈AI高性能網絡中,由于AI大模型訓練需要處理大量的數據,同時各種并行模式和加速框架也引入了海量的通信需求,因此為了保證AI大模型訓練的效率,超高速且無擁塞的網絡成為至關重要的前提條件。在這個背景下,我們將網絡控制器進一步演進升級到DCN控制器2.0—GOR控制器。GOR是星脈AI高性能網絡的關鍵技術之一,通過GOR控制器的精細控制,實現網絡流量合理規劃和動態調整,從而達到超低時延與超高帶寬,保障AI大模型訓練效率。

DCN控制器1.0,網絡穩定性的守護者

網絡變更灰度:DCN中網絡設備數量多、組網復雜、流量復雜,并且單臺設備承載的流量大。日常運營中經常涉及設備的維修替換,這就需要處理設備從在線到隔離再到重上線的過程。設備處于隔離狀態時沒有入向流量,從隔離狀態轉換到重上線狀態過程中重新對外引流。此時如果設備有問題(硬件、配置等),影響的用戶范圍非常廣,穩定性風險很高。因此我們在實際運營中,使用DCN控制器將少部分流量引到隔離設備上。通過觀察灰度流量是否正常來判斷設備是否正常。如果灰度流量有問題則快速回滾,將故障影響面控制到最小,保證網絡的穩定性。

路由監控:路由監控的目標是對DCN內外網路由進行采集、監控,對不符合預期的路由進行提前告警和控制,優化路由自動管理,提前發現網絡故障隱患。DCN承載的業務復雜多樣,內、外網路由策略各不相同,甚至部分業務還對路由存在特殊需求,因此如何確保各種場景下海量路由的正確性,是網絡運營的一個重要挑戰。 在路由監控中,DCN控制器與網絡設備建立BGP鄰居,收集設備上的路由,按照各種功能和業務需求進行監控:功能類監控面向通用場景,支持不同維度路由查詢、回溯,監控特定路由(特定大段路由、匯總路由)等;業務類監控針對具體業務,路由的產生者是業務網關,不同業務路由策略各不相同,包括主備路由監控、anycast路由監控、路由震蕩監控、公網路由掩碼監控以及路由來源監控等。通過多維度的路由監控,確保網絡的正確性、一致性。

星脈GOR控制器(DCN控制器2.0),網絡流量工程的領航員

AI網絡中的數據流就好像拉力賽道上飛馳的賽車,在賽道上高速前進。但是由于賽道的寬度有限,如果一條賽道上同時有多輛賽車,那么賽車就需要降低速度來避免碰撞;AI網絡中的數據流也類似,如果一條網絡鏈路上有多條數據流,那么不同流的總和容易超過鏈路的最大帶寬,從而出現擁塞導致流降速,最終影響AI大模型的訓練效率。為了避免上述沖突,拉力賽中需要領航員規劃賽車路線,避免多輛賽車同時通過賽道。此外在出現突發狀況時,領航員快速調整路線避免賽車間沖突碰撞,如圖2所示。在AI網絡中,我們也需要類似負責規劃與調度的領航員,這就是星脈網絡GOR控制器。一方面GOR控制器預先規劃網絡中數據流路徑,避免擁塞;另一方面在擁塞發生時(例如網絡鏈路故障),GOR控制器動態調度快速消除擁塞,從而保證AI大模型的訓練效率。

●AI大模型網絡特征 組網復雜。AI大模型網絡通常組網復雜、流量復雜。圖3分別是4K卡和16K卡集群的組網抽象圖。在如此復雜的網絡拓撲下,多任務并行以及相應的網絡流量規劃和網絡流量擁塞調度都面臨著極大的挑戰。

4f791a32-f00a-11ee-a297-92fbcf53809c.png

圖3.4K、16K卡集群組網抽象圖 局部負載不均。負載均衡是網絡領域的經典問題。如何均衡網絡流量、提高利用率、避免擁塞,從而保證業務質量是網絡持續追求的目標。雖然我們的網絡帶寬越來越大(設備交換芯片容量從6.4T、12.8T、25.6T到51.2T),但伴隨著業務的井噴式發展,服務器端側的帶寬也在快速增加(從10G、25G、100G到200G)。因此,大象流或者局部負載不均導致的網絡擁塞在DCN仍然很常見,尤其在AI網絡中問題更加突出。這是因為AI大模型業務特征是業務流數少,單流帶寬大。這種流量模型對網絡基于流Hash的負載均衡機制“并不友好”,容易造成局部熱點,從而產生擁塞。 我們在現網運營中觀察到很多AI網絡集群并不能達到理想的負載均衡,圖4是某個AI集群的網絡流量分布熱力圖,顏色越深代表鏈路上流量越大,可以看到明顯的負載不均。

4f878a18-f00a-11ee-a297-92fbcf53809c.png

圖4. 網絡鏈路流量分布 AI網絡性能決定GPU集群算力,負載不均引起的網絡擁塞會導致有效帶寬降低、端側通信時長增加,從而影響AI大模型的訓練效率。我們可以采用多種指標衡量網絡擁塞,例如:擁塞計數、延時、帶寬占用率、緩存隊列等。從圖5可以看出,ECN計數突增的同時,伴隨端側計算通信時長顯著增加,嚴重降低AI大模型訓練效率、影響訓練成本。

4f9264e2-f00a-11ee-a297-92fbcf53809c.png

圖5.ECN計數與端側通信時長 流量可預測。AI大模型網絡流量具有高度可預測特性。從宏觀角度看,一旦AI大模型訓練任務啟動,我們可以提前確定哪些節點之間需要進行通信,以及在何時、如何進行通信;從微觀角度看,節點之間的通信數據流呈現出高度周期性的特點。圖6分別是RDMA QP(Queue Pair)維度和五元組數據流維度的趨勢圖,可以看到無論從單個QP還是多個QP聚合的五元組數據流維度統計,流量都呈現明顯的周期性。

4fabc4be-f00a-11ee-a297-92fbcf53809c.png

圖6.QP、流趨勢圖 ●GOR控制器設計 GOR控制器包括兩部分:訓練任務啟動前的預規劃以及訓練任務進行中的動態調度。預規劃階段,控制器通過結合全局網絡拓撲與任務信息,為每條業務流規劃最佳路徑;動態調度階段,將熱點區域的數據流進行調度換路,繞開擁塞,從而保障AI大模型的訓練效率。預規劃的目標是盡量減少、避免網絡擁塞;動態調度的目標是當擁塞發生時(例如網絡鏈路故障),通過對相關流進行動態換路來消除擁塞。線上數據表明,通過GOR控制器的調度,網絡擁塞時間縮短超過90%。 GOR控制器包括三個部分:采集、計算和調度/監控,總體控制流程如圖7所示。采集階段,GOR控制器通過分析秒級Telemetry數據找到出現擁塞的交換機端口以及業務流詳情,按照一定的策略選出需要調度走的業務流。

4fc28d02-f00a-11ee-a297-92fbcf53809c.jpg

圖7. GOR控制器流程 路徑計算的核心訴求是結合網絡實時拓撲,為上一階段選出的每個要調度的流找到最優新路徑。同時要對新路徑進行容量評估,避免調度到新路徑后產生新的擁塞。 調度的方法是修改流路徑,具體有兩種方式:下發調度路由和TCCL端側聯動。下發調度路由方式中,控制器通過向網絡設備下發路由從而修改對應流路徑;TCCL端側聯動方式中,控制器與TCCL聯動修改流路徑,最終繞開出現擁塞的交換機端口。 調度下發后,控制器對影響的訓練任務流進行監控。當訓練任務結束后需要撤銷相應的調度路由,避免AI訓練任務變化后,之前下發的調度路由對新任務產生非預期的影響。 ●GOR控制器規劃、調度效果 GOR預規劃的目標是避免擁塞,保證端側通信速率,從而保障AI大模型訓練效率。預規劃階段,控制器為每條數據流進行高速算路,單條路徑計算時間在微秒級,萬條路徑計算時間小于1秒。圖8所示是千卡任務預規劃后的網絡鏈路流量分布,顏色越深代表鏈路上流量越大,顏色相近代表鏈路負載均衡,與圖4對比可以看到GOR預規劃對網絡負載均衡效果顯著。預規劃可以實現95%以上的業務均衡,在業務親和情況下可以實現近100%無擁塞。

4fd3789c-f00a-11ee-a297-92fbcf53809c.png

圖8.預規劃后網絡流量分布 預規劃提高網絡負載均衡度,從而保證端側通信速率。圖9是AllReduce通信模型下,GPU集群針對不同Message size預規劃前后的通信速率性能測試結果??梢钥吹?strong>GOR預規劃對端側通信速率提升明顯,AllReduce性能提升近20%。

4fdb49a0-f00a-11ee-a297-92fbcf53809c.png

圖9.AllReduce性能對比 GOR動態調度的目標是當擁塞出現時快速消除擁塞。我們對線上某個AI網絡集群的ECN告警數與告警時長持續監控一個月,如圖10所示。開啟GOR控制器調度后,擁塞告警數與告警時長均顯著下降,告警恢復時間小于3分鐘,GOR調度對網絡總體的擁塞消除效果顯著。

4fe4dc4a-f00a-11ee-a297-92fbcf53809c.png

圖10. 某AI網絡集群ECN告警統計 為了更加直觀展示GOR控制器調度效果,我們選取一些典型業務場景進行分析說明。圖11是一個線上發生一般擁塞后,GOR控制器調度消除擁塞的效果。這種流量模型一般常見于AllReduce通信場景。從圖中可以看到,GOR控制器執行調度后,交換機端口的ECN數歸零,代表擁塞立即消除。

4ff4a300-f00a-11ee-a297-92fbcf53809c.png

圖11. 一般擁塞鏈路上的GOR調度 圖12是線上一個網絡鏈路嚴重擁塞時GOR的調度效果。這種流量模型通常出現在多個訓練任務疊加場景,以及All2All通信場景。從圖中可以看到,初始ECN數值超過了10000,表明鏈路已經嚴重擁塞。在首次調度后,GOR控制器成功將擁塞鏈路中的最大流調度至目的鏈路-1,這使得擁塞鏈路的帶寬利用率顯著降低,同時ECN計數也得到一定程度緩解,降至2000左右。在GOR控制器完成告警恢復校驗后,繼續調度,將鏈路中的次大流調度至目標鏈路-2,從而使ECN數值進一步降至約1000左右。經過兩次調度,擁塞鏈路的ECN數值仍然很高,GOR繼續第三次調度,最終成功將ECN數值降低至500以下,從而消除了該鏈路的擁塞。

50009868-f00a-11ee-a297-92fbcf53809c.png

圖12.嚴重擁塞鏈路上的GOR調度 圖13是一臺機器網卡的RDMA速率監控,可以看到GOR控制器調度后,網卡的出方向速率持續升高,最終達到預期值。

501409ac-f00a-11ee-a297-92fbcf53809c.png

圖13.GOR調度對網卡出向速率的影響 AI大模型的算力基礎是GPU,不同廠商異構GPU的通信模式、流量模型差異很大。GOR控制器在不同GPU集群中都可以顯著消除網絡擁塞,加速端側通信速率,從而保證AI大模型訓練效率。圖14、圖15分別所示在A、B兩種GPU集群中針對不同Message size調度前后的All2All測試結果,可以看到GOR調度后效果顯著,All2All性能提升30%~50%。

501f6d24-f00a-11ee-a297-92fbcf53809c.jpg

圖14. A廠商GPU集群調度開啟前后All2All性能對比

5030e4dc-f00a-11ee-a297-92fbcf53809c.jpg

圖15. B廠商GPU集群調度開啟前后All2All性能對比 實際場景中,GOR控制器預規劃與動態調度結合使用。圖16所示在GPU集群All2All性能測試場景中,預規劃提升All2All性能45%以上,顯著解決負載不均問題。當網絡鏈路故障時,性能下降約20%。檢測到擁塞后,GOR控制器動態調度將性能恢復到理想水平。

505e683a-f00a-11ee-a297-92fbcf53809c.png

圖16. 各場景下All2All性能 ●GOR控制器業務級運營效果 除了規劃和調度功能外,GOR控制器還實時監控網絡中流的五元組信息,并結合業務側的AI大模型訓練任務,以提供星脈網絡的業務級運營能力。業務級運營將底層網絡流的五元組信息與上層的AI大模型訓練任務結合起來,以便在訓練任務出現問題時快速定位相應的網絡流,同時結合規劃和調度信息判斷是否與網絡有關。同樣地,當檢測到網絡擁塞時,能夠快速找到相關的訓練任務信息,并判斷其對業務的影響。 圖17是GOR控制器對網絡流五元組信息的實時監控效果,網絡中任一時刻、任一條鏈路上的所有流的五元組信息均可以完整記錄,并且可以根據某個五元組還原對應流在網絡中的完整路徑。

50721650-f00a-11ee-a297-92fbcf53809c.png

圖17.網絡流五元組信息實時監控 圖18是訓練任務與端側節點的對應關系,GOR控制器通過聚合網絡流的五元組信息并結合端側和訓練框架信息,還原出訓練任務以及與訓練任務相關的所有端側節點信息。

507e2e9a-f00a-11ee-a297-92fbcf53809c.png

圖18.訓練任務與端側節點對應關系

總結

作為現代信息技術的基礎設施,DCN承載了AI、大數據、云計算等應用的海量數據流量和通信需求。尤其隨著ChatGPT、Sora的出現,AI大模型引爆了新一輪算力網絡需求浪潮,傳統的以CPU為核心的DCN演進升級到了全新的以GPU為核心的星脈AI高性能網絡。在傳統DCN中,我們應用DCN控制器1.0實施網絡變更灰度和路由監控來保證網絡的穩定性;在星脈AI高性能網絡中,DCN控制器1.0進一步演進升級到星脈GOR控制器。星脈GOR控制器通過精細控制實現網絡流量合理規劃和動態調整,并提供業務級運營能力,全面提升AI大模型的訓練效率。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 控制器
    +關注

    關注

    112

    文章

    15333

    瀏覽量

    172331
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10509

    瀏覽量

    207136
  • 數據中心
    +關注

    關注

    15

    文章

    4265

    瀏覽量

    70417
  • AI
    AI
    +關注

    關注

    87

    文章

    26909

    瀏覽量

    264693
  • dcnn
    +關注

    關注

    0

    文章

    7

    瀏覽量

    2969

原文標題:星脈網絡解密之——GOR全鏈路流量規劃與擁塞控制

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    為何要進行擁塞控制?如何知道網絡擁塞情況?

    大家可能都聽說過擁塞控制流量控制,想必也有一些人可能還分不清擁塞控制流量控制,進而把他們當作
    的頭像 發表于 11-03 11:02 ?6670次閱讀
    為何要進行<b class='flag-5'>擁塞</b><b class='flag-5'>控制</b>?如何知道<b class='flag-5'>網絡</b>的<b class='flag-5'>擁塞</b>情況?

    以太網存儲網絡擁塞管理連載案例(五)

    解決無損以太網網絡擁塞問題的方法與光纖通道結構相同。兩者都使用逐跳流量控制機制,只是實現方式不同而已。
    的頭像 發表于 03-04 11:17 ?468次閱讀
    以太網存儲<b class='flag-5'>網絡</b>的<b class='flag-5'>擁塞</b>管理連載案例(五)

    TCP優化之TCP/IP網絡流量加速

    升速或者降低初步降速大小的優化器而言,它們可以防止最先發生的擁塞,并且通過在新流量流開始提升傳輸速度時預先減慢其傳輸速度,從而可以更好地處理威脅?! 〖记?:要注意網絡優先級。流量成形
    發表于 03-14 14:52

    壓測一招搞定,阿里云性能測試鉑金版發布

    版本的發布,就是把全局的復雜流量形態編排、串聯這塊的工作變成一個基于直白式交互的功能,可以讓用戶在壓測場景構造和復現上無需編碼,網頁上就能編排復雜的壓測業務,希望以更智能而簡單的
    發表于 01-30 14:13

    基于分組對的分層組播擁塞控制機制

    分析了現有分層組播擁塞控制協議的基本原理,提出了一種基于分組對推測網絡可用帶寬的分層組播擁塞控制機制
    發表于 11-11 17:22 ?19次下載

    基于BFC模型的ATM網絡擁塞控制器的設計

                為充分提高ATM網絡性能,設計一個高效的擁塞控制系統是關鍵。自適應比特(ABR)業務
    發表于 09-15 08:24 ?7次下載

    一種綜合的MPLS流量工程擁塞控制策略

    提出了一種綜合的適合MPLS網絡的主動式流量擁塞控制策略。通過仿真表明,與傳統的TCP協議相比,該策略縮短了擁塞反饋時延,有效地避免了
    發表于 07-16 15:35 ?15次下載

    擁塞控制機制是什么意思

    擁塞控制機制是什么意思 擁塞是當多個用戶競爭訪問相同的資源(帶寬、緩沖區和隊列)時發生在共享網絡上的問題。就像高速公路發
    發表于 03-18 15:01 ?2349次閱讀

    什么是ATM流量控制擁塞控制

    什么是ATM流量控制擁塞控制 流量控制網絡技術中的一個重要課題,此處以ATM網絡為例對
    發表于 04-06 16:04 ?2675次閱讀

    基于信息熵的WSN節點擁塞避免機制

    在本文中,提出了基于節點相對信息熵的擁塞避免機制,該擁塞避免機制是基于事件的有效信息量,真正體現無線傳感器網絡以事件為中心的特點。
    發表于 06-29 10:34 ?949次閱讀
    基于信息熵的WSN節點<b class='flag-5'>擁塞</b>避免<b class='flag-5'>機制</b>

    因特網絡擁塞控制機制的數學架構研究

    擁塞控制機制進行理論分析研究一直是因特網研究領域的熱點,文中對因特網擁塞控制的基本數學架構進行了分析,勾畫了一個用于因特網的分析和設計的統
    發表于 09-25 11:49 ?40次下載
    因特<b class='flag-5'>網絡</b><b class='flag-5'>擁塞</b><b class='flag-5'>控制</b><b class='flag-5'>機制</b>的數學架構研究

    萬兆網絡擁塞控制和排隊調度實現與優化

    研究了萬兆交換網絡中交換原理,對萬兆交換機中性能的關鍵因數和瓶頸存在于緩存區中的擁塞控制和排隊調度機制,基于早期的網絡應用傳統的
    發表于 12-21 11:34 ?0次下載
    萬兆<b class='flag-5'>網絡</b>中<b class='flag-5'>擁塞</b><b class='flag-5'>控制</b>和排隊調度實現與優化

    基于數據投遞概率的擁塞控制機制

    針對DTN網絡數據編碼分發過程中數據擁塞造成投遞性能下降的問題,提出了一種基于主題數據投遞概率的節點擁塞控制機制(CCM-DP)。綜合考慮節
    發表于 02-27 14:55 ?0次下載

    防止網絡擁塞現象的TCP擁塞控制算法

    為了防止網絡擁塞現象,TCP提出了一系列的擁塞控制機制。最初由V.Jacobson在1988年的論文中提出的TCP的
    的頭像 發表于 10-29 14:54 ?2230次閱讀

    論TCP協議中的擁塞控制機制網絡穩定性

    TCP協議中的擁塞控制機制網絡穩定性的深度探討 隨著互聯網的快速發展,網絡流量呈現爆炸式增長,
    的頭像 發表于 04-19 16:42 ?154次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>