<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

詳解PCIe和NVLink兩種互聯技術

SDNLAB ? 來源:SDNLAB ? 2023-10-17 11:25 ? 次閱讀

計算機網絡通信中兩個重要的衡量指標是帶寬和延遲,AI 網絡也是如此。在向百億級及以上規模的發展過程中,影響AI計算集群性能的關鍵并不只在于單個芯片的處理速度,每個芯片之間的通信速度也尤為重要。

目前GPU卡間互聯的主要協議是PCIe和NVlink,服務器間互聯則是RDMA以太網。之前我們有談過IB和RoCE(IB和RoCE,誰更適合AI數據中心網絡?),本文將主要介紹PCIe和NVLink兩種互聯技術。

01PCIe :高帶寬擴展總線

總線是服務器主板上不同硬件互相進行數據通信的管道,可以簡單理解為生活中的各種交通道路??偩€對硬件間數據傳輸速度起著決定性的作用,目前最流行的總線協議為PCIe(PCI-Express),最早由Intel于2001年提出。

PCle主要用于連接CPU與各類高速外圍設備,如GPU、SSD、網卡、顯卡等。與傳統的PCI總線相比,PCIe采用點對點連接方式,具有更高的性能和可擴展性。伴隨著AI、自動駕駛、AR/VR等應用快速發展,計算要求愈來愈高,處理器I/O帶寬的需求每三年實現翻番,PCIe也大致按照3年一代的速度更新演進,每一代升級幾乎能夠實現傳輸速率的翻倍,并有著良好的向后兼容性。

2003 年PCIe 1.0 正式發布,可支持每通道傳輸速率為 250MB/s,總傳輸速率為 2.5 GT/s。

2007 年推出PCIe 2.0 規范。在 PCIe 1.0 的基礎上將總傳輸速率提高了一倍,達到 5 GT/s,每通道傳輸速率從 250 MB/s 上升至 500 MB/s。

2022 年 PCIe 6.0 規范正式發布,總帶寬提高至 64 GT/s。

2022年6月,PCI-SIG聯盟宣布PCIe 7.0版規范,單條通道(x1)單向可實現128GT/s傳輸速率,計劃于2025年推出最終版本。

wKgZomUt_s2AcijgAAITpRKRM1w154.png

PCIe 1.0 到 6.0 不同 Lane 下的帶寬變化

Retimer

在PCIe標準的迭代過程中,隨著通信速率的逐步提高,信號質量也會受到影響,為應對愈演愈烈的信號衰減問題,PCIe從4.0時期開始引入信號調理芯片:

PCIe Retimer

Retimer是一種數模信號混合芯片,功能主要為重新生成信號。Retimer 先恢復抖動的時鐘信號,再生成新信號并重新發送,從而有效解決信號衰減問題,為服務器、存儲設備及硬件加速器等應用場景提供可擴展的高性能PCIe互聯解決方案。

PCIe Redriver

Redriver是一種信號放大器,通過發射端的驅動器和接收端的濾波器提升信號強度,從而實現對信號損耗的補償。

工作原理來看,Redriver通過放大信號來恢復數據,而Retimer 則重新建立一個傳輸信號的新副本。與 Redriver 相比,Retimer 恢復信號的效果更好,能夠實現比Redriver更優的降低信道損耗效果,但由于增加了數據處理過程,時延有所增加。

PCIe Switch

PCIe 的鏈路通信是一種端對端的數據傳輸,每一條PCIe鏈路兩端只能各連接一個設備,在需要高速數據傳輸和大量設備連接的場景中連接數量和速度受限。因此需要PCIe Switch提供擴展或聚合能力,從而允許更多的設備連接到一個 PCle 端口,以解決 PCIe 通道數量不夠的問題。

wKgaomUt_s2AeGXIAAH3te8HijI776.png

PCIe Switch連接多條PCIe總線

PCIe Switch兼具連接、交換功能,具有低功耗、低延遲、高可靠性、高靈活性等優勢,能夠將多條PCIe總線連接在一起,形成一個高速的PCIe互聯網絡,從而實現多設備通信。從PCIe Switch內部結構看,其由多個PCI-PCI橋接構成,實現從單條線到多條線的發散。PCIe Switch 芯片與其設備的通信協議都是 PCIe。

02NVLink:高速 GPU 互連

算力的提升不僅依靠單張GPU卡的性能提升,往往還需要多GPU卡組合。在多GPU系統內部,GPU間通信的帶寬通常在數百GB/s以上,PCIe總線的數據傳輸速率容易成為瓶頸,且PCIe鏈路接口的串并轉換會產生較大延時,影響GPU并行計算的效率和性能。

GPU發出的信號需要先傳遞到PCIe Switch, PCIe Switch中涉及到數據的處理,CPU會對數據進行分發調度,這些都會引入額外的網絡延遲,限制了系統性能。

wKgZomUt_s2AHGRJAAFIhOBGtRw150.png

為此,NVIDIA推出了能夠提升GPU通信性能的技術——GPUDirect P2P技術,使GPU可以通過PCI Express直接訪問目標GPU的顯存,避免了通過拷貝到CPU host memory作為中轉,大大降低了數據交換的延遲,但受限于PCI Express總線協議以及拓撲結構的一些限制,無法做到更高的帶寬。此后,NVIDIA提出了NVLink總線協議。

NVLink的演進

NVLink 是一種高速互連技術,旨在加快 CPU 與 GPU、GPU 與 GPU 之間的數據傳輸速度,提高系統性能。NVLink通過GPU之間的直接互聯,可擴展服務器內的多GPU I/O,相較于傳統PCIe總線可提供更高效、低延遲的互聯解決方案。

NVLink的首個版本于2014年發布,首次引入了高速GPU互連。2016年發布的P100搭載了第一代NVLink,提供 160GB/s 的帶寬,相當于當時 PCIe 3.0 x16 帶寬的 5 倍。V100搭載的NVLink2將帶寬提升到300GB/s ,A100搭載了NVLink3帶寬為600GB/s。目前NVLink已迭代至第四代,可為多GPU系統配置提供高于以往1.5倍的帶寬以及更強的可擴展性,H100中包含18條第四代NVLink鏈路,總帶寬達到900 GB/s,是PCIe 5.0帶寬的7倍。

wKgaomUt_s2AB2fGAADwJqa2b9U315.png

四代 NVLink 對比

目前已知的NVLink分兩種,一種是橋接器的形式實現NVLink高速互聯技術,另一種是在主板上集成了NVLink接口。

NVSwitch

為了解決GPU之間通訊不均衡問題,NVIDIA引入NVSwitch。NVSwitch芯片是一種類似交換機ASIC的物理芯片,通過NVLink接口可以將多個GPU高速互聯到一起,可創建無縫、高帶寬的多節點GPU集群,實現所有GPU在一個具有全帶寬連接的集群中協同工作,從而提升服務器內部多個GPU之間的通訊效率和帶寬。NVLink和NVSwitch的結合使NVIDIA得以高效地將AI性能擴展到多個GPU。

wKgZomUt_s2AD-41AAQ4HXkLf2E119.png

NVSwitch 拓撲圖

第一代 NVSwitch于2018年發布,采用臺積電 12nmFinFET 工藝制造,共有 18 個 NVLink 2.0 接口。目前 NVSwitch 已經迭代至第三代。第三代 NVSwitch 采用 TSMC 4N 工藝構建,每個 NVSwitch 芯片上擁有 64 個 NVLink 4.0 端口,GPU 間通信速率可達 900GB/s。

wKgaomUt_s2ABFFyAADTgjKsFrY636.png

三代 NVSwitch 性能對比

2023 年 5 月 29 日,NVIDIA推出的DGX GH200 AI超級計算機,采用NVLink以及 NVLink Switch System 將256個GH200 超級芯片相連,把所有GPU作為一個整體協同運行。DGX GH200 是第一臺突破 NVLink 上 GPU 可訪問內存 100 TB 障礙的超級計算機。

03AI時代下的網絡互聯

在逐步邁向AI時代網絡互聯的過程中,該選擇PCIe還是NVLink?我們可以先看下NVIDIA 的NVLink版(SXM版)與PCIe版GPU的區別。

SXM架構是一種高帶寬插座式解決方案,用于將 GPU連接到NVIDIA 專有的 DGX 和 HGX 系統。SXM 版GPU通過 NVSwitch 芯片互聯,GPU 之間交換數據采用NVLink,未閹割的A100是600GB/s、H100是900GB/s,閹割過的A800、H800為400GB/s。PCIe版只有成對的 GPU 通過 NVLink Bridge 連接,通過 PCIe 通道進行數據通信。最新的PCIe只有128GB/s。

wKgZomUt_s2AVKo5AAToEP-QVGA593.png

AI /HPC的計算需求不斷增長,因此越來越需要在 GPU 之間提供更大的互聯帶寬??偟膩碚f,NVLink的傳輸速度與時延都要優于PCIe,PCIe的帶寬已逐漸無法滿足AI時代數據互聯的需求。但PCIe作為通用標準的互聯技術,可廣泛應用于各種場景,而NVLink為NVIDIA專有,是NVIDIA AI帝國的護城河,其他企業只能采用PCIe或者別的互聯協議。

像谷歌是通過自研的OCS(Optical Circuit Switch)技術實現TPU之間的互聯,解決TPU的擴展性問題。谷歌還自研了一款光路開關芯片Palomar,通過該芯片可實現光互聯拓撲的靈活配置。也就是說,TPU芯片之間的互聯拓撲并非一成不變,可以根據機器學習的具體模型來改變拓撲,提升計算性能及可靠性。借助OCS技術,可以將4096個TPU v4組成一臺超級計算機。

據稱,目前國外AI芯片初創公司Enfabrica和國內某些企業正沿著PCIe/CXL Switch方向在努力,結合CXL協議規范和PCIe接口的通用性,打造CPU-CPU直連交換芯片和系統方案。近期,NVIDIA還對Enfabrica進行了投資。有分析師表示,Enfabrica完全具備作為NVIDIA競爭對手的潛力,未來NVIDIA可能會考慮收購這家初創公司。

市場發展瞬息萬變,未來具體將如何演變不僅取決于技術創新,也取決于市場需求和行業合作。在這個不斷演變的AI網絡互聯時代,企業如何抉擇將取決于自身對性能、成本、應用場景和未來發展趨勢等多重因素的考量。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 服務器
    +關注

    關注

    12

    文章

    8183

    瀏覽量

    82734
  • 總線
    +關注

    關注

    10

    文章

    2719

    瀏覽量

    87288
  • 數據中心
    +關注

    關注

    15

    文章

    4220

    瀏覽量

    70296
  • AI
    AI
    +關注

    關注

    87

    文章

    26709

    瀏覽量

    264353
  • PCIe
    +關注

    關注

    13

    文章

    1095

    瀏覽量

    81073

原文標題:AI網絡互聯,PCIe還是NVLink?

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    IBM聯合英偉達發布NVLink 將與PCIe搶市場

    英偉達和IBM今日宣布推出名為NVLink的高速互聯。這項新技術將集合到英偉達的未來GPU里,預計2016年將開始引入Pascal GPU架構,同時還有IBM未來版本的強大處理器。
    發表于 03-26 08:13 ?725次閱讀

    900GB/s,NVLink才是英偉達的互聯殺手锏

    了這一技術。根據英偉達超大規模計算部門副總裁Ian?Buck的說法,Chiplet和異構計算已經成了解決摩爾定律緩慢進展的兩大有效手段。而NVLink-C2C這一面向die和chip的互聯技術
    的頭像 發表于 03-25 07:03 ?5085次閱讀

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    Tensor Core GPU支持多達18個NVLink連接,每個連接速度可達100 GB/秒,總帶寬達到1.8 TB/秒,是上一代產品的倍,超過PCIe Gen5的14倍以上。NVLin
    發表于 05-13 17:16

    兩種采樣方式

    兩種采樣方式.....................................
    發表于 08-08 15:04

    HTML5和HLS協議兩種技術完美結合解決移動端網頁播放問題

    ;quot;example.m3u8"></source></video> 這兩種技術結合應用最為廣泛就是網絡視頻直播
    發表于 06-01 14:48

    兩種典型的ADRC算法介紹

    前言??上篇中詳細闡述了經典的自抗擾控制算法的原理,本篇將圍繞兩種ADRC算法展開,針對擴張狀態觀測器的參數整定問題進行詳解,同時,對跟蹤微分器的幾個重要應用進行介紹。兩種典型的ADRC算法??自抗
    發表于 09-07 08:02

    SQL語言的兩種使用方式

    編寫)-DBMS預處理程序-預處理過的源程序(嵌入的SQL語句已轉換成函數調用形式)-宿主語言編譯程序(SQL函數定義庫)-目標程序嵌入式SQL涉及到SQL語句在主語言程序中的使用規定,以解決兩種語言的不一致和相互聯系的問題。...
    發表于 12-20 06:51

    英偉達GPU卡多卡互聯NVLink,系統累積的公差,是怎么解決的?是連接器吸收的?

    英偉達不斷推出GPU卡,并且實現多卡互聯NVLink,實際整個系統會累積到一個較大的公差,而目前市面上已有的連接器只能吸收較少的公差,這個是怎么做到匹配的呢?
    發表于 03-05 16:17

    CCIX 1.1設備必須支持PCIe 5.0 PHY或CCIX EDR PHY這兩種物理層嗎

    5 物理層5.1 介紹CCIX 1.1設備必須支持兩種物理層中的一PCIe 5.0 PHY,或者是CCIX EDR PHY。5.2 EDR25-SR電氣規范EDR25-SR電氣規范適用于
    發表于 08-16 15:45

    NB-IOT與LoRa未來兩種技術在國內的發展究竟如何呢?

    備受爭議,但隨著廣電,鐵塔及互聯網巨頭騰訊,阿里相繼加入LoRa陣營,無疑又為LoRa在國內的發展注入一支“強心劑”。那未來兩種技術在國內的發展究竟如何呢?   NB-IOT( Narrow Band
    發表于 05-11 10:14

    什么是 NVLink?

    什么是 NVLink?
    的頭像 發表于 10-27 16:10 ?380次閱讀
    什么是 <b class='flag-5'>NVLink</b>?

    NVLink的演進

    2014年,NVLink 1.0發布,并應用在P100芯片上,如下圖所示。兩顆GPU之間有4條NVlink, 每個link中包含8個lane, 每條lane的速率是20Gb/s, 因此整個系統的雙向帶寬為160GB/s,是PCIe
    的頭像 發表于 10-11 15:32 ?1401次閱讀
    <b class='flag-5'>NVLink</b>的演進

    英偉達AI服務器NVLink版與PCIe版有何區別?又如何選擇呢?

    在人工智能領域,英偉達作為行業領軍者,推出了兩種主要的GPU版本供AI服務器選擇——NVLink版(實為SXM版)與PCIe版。這兩者有何本質區別?又該如何根據應用場景做出最佳選擇呢?讓我們深入探討一下。
    的頭像 發表于 03-19 11:21 ?1302次閱讀
    英偉達AI服務器<b class='flag-5'>NVLink</b>版與<b class='flag-5'>PCIe</b>版有何區別?又如何選擇呢?

    NVLink的演進:從內部互聯到超級網絡

    NVLink是NVIDIA開發的一種高速、低延遲的互聯技術,旨在連接多個GPU以實現高性能并行計算。與傳統的PCIe總線相比,NVLink
    的頭像 發表于 04-13 11:22 ?629次閱讀
    <b class='flag-5'>NVLink</b>的演進:從內部<b class='flag-5'>互聯</b>到超級網絡

    全面解讀英偉達NVLink技術

    NVLink是一種解決服務器內GPU之間通信限制的協議。與傳統的PCIe交換機不同,NVLink帶寬有限,可以在服務器內的GPU之間實現高速直接互連。第四代NVLink提供更高的帶寬,
    發表于 04-22 11:01 ?208次閱讀
    全面解讀英偉達<b class='flag-5'>NVLink</b><b class='flag-5'>技術</b>
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>