<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA Spectrum-X助力IBM為AI Cloud提供高性能底座

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2024-05-08 09:27 ? 次閱讀

在混合云與 AI 的時代,企業和組織需要創建、分析和保存海量的數據,在分布式的應用環境中會形成各種各樣的數據孤島,導致復雜系統難以管理,成本不斷增加。為了能夠更快速地從數據中獲得所需的洞察力,其底層的信息架構必須支持混合云、大數據和人工智能(AI)工作負載以及傳統應用,同時確保安全性、可靠性、數據效率和高性能,還需要能夠無縫擴展來應對非結構化數據的飛速增長。

IBM Storage Scale 作為一種高性能的并行數據存儲解決方案,可以幫助用戶更快速地獲得所需的計算或分析結果,管理快速擴展的數據和基礎架構,同時確保數據安全性并降低總體存儲成本。

36e6907c-0c74-11ef-a297-92fbcf53809c.png

圖1:AI 與混合云對數據存儲的需求

面對生成式 AI 的爆炸式發展,GPU 集群的運算性能至關重要,不僅需要更高的 GPU 的計算能力和更快的存儲,同時需要專用的網絡基礎設施來確保多個節點并行的最佳性能。NVIDIA 開發了業界首款面向 AI 的以太網網絡平臺 - Spectrum-X ,旨在增強 AI 云的性能和效率。Spectrum-X 平臺的核心是 NVIDIA Spectrum-4 以太網交換機、NVIDIA BlueField-3 SuperNIC/DPU、NVIDIA DOCA 軟件棧及交換機軟件棧NVIDIA LinkX 高品質互連設備,這種組合構成了 AI 加速計算網絡架構的基礎。NVIDIA 將 BlueField-3 SuperNIC 和 DPU 集成到其面向 AI 訓練、推薦及推理等各種系統中,不僅滿足以太網在多租戶云上的各種需求,同時保證了 AI 集群最好的運算及存儲性能。

3704076a-0c74-11ef-a297-92fbcf53809c.png

圖2:NVIDIA Spectrum-X 平臺介紹

在 AI 云存儲平臺的選擇上,IBM Storage Scale 可提供經過驗證的企業級數據平臺。IBM Storage Scale 源自 GPFS,有超過 30 年的研發歷史,在全球有大量成功部署的經驗,廣泛應用在業界超大規模和需求嚴苛的應用環境,包括過去幾十年間全球性能最強的人工智能和高性能計算環境。

為了滿足不同類型應用的數據訪問需求,IBM Storage Scale 能夠將文件、大數據分析、對象和容器應用的接口集成到一個統一的向外擴展的存儲解決方案之中。它可為所有這些數據提供一個統一的命名空間,實現協議互通,并通過直觀的圖形用戶界面(GUI)提供單點管理。通過對最終用戶透明的存儲策略,可對數據進行分層、壓縮或遷移到磁帶或云端,以降低成本;數據還可以分層到高性能數據存儲介質,包括服務器緩存,進而降低延遲、提升性能。遠程站點的智能數據緩存可確保借助活動文件管理(AFM)功能以本地讀/寫性能在地域分散的各個站點之間提供數據,不需要復制全部數據,減少數據傳遞的網絡開銷。

3723cd2a-0c74-11ef-a297-92fbcf53809c.png

圖3:IBM Storage Scale 概覽

對于 AI 集群應用來說,為了滿足不斷提高的算力和各種基礎模型對更大參數規模的需要,也需要更高速的數據訪問能力,避免因為存力不足導致的低效 I/O使得 GPU 無用武之地。由多臺服務組成的 GPU 服務器集群需要數百 GBps 到數 TBps 的高速數據存儲才能滿足其對存力的需求;此外,為了提升 GPU 的應用效率,NVIDIA 開發了 GPUDirect Storage 技術,可以通過 RDMA 高速網絡直接將數據從外部存儲傳輸至 GPU 顯存上,能有效減輕 CPU I/O 的瓶頸,提升 GPU 訪問數據的帶寬并大幅縮短通信延遲;此外,對于 AI 應用來說,從數據攝入到生產推理,每個環節都需要利用不同工具實現海量數據處理,并且這是一個不斷重復的流程。用戶需要構建的端到端的高速數據管道,簡化流程并實現數據安全、高效的流動。

經過充分優化的 IBM Storage Scale System 可以充分發揮并行架構和高速網絡的優勢,加速各種 AI 工作負載應用,具備以下優勢:

極致性能:提供業界領先的文件讀寫性能,目前單個 SSS 模塊可提供超過 310 GB/s 的文件訪問帶寬和 13M IOPS,可擴展到上千個模塊滿足更高性能和容量的需求,同時內置的 Decluster RAID 技術可以最小化各種硬件故障對性能的影響;

認證支持:IBM Storage Scale 是 NVIDIA 官方認證支持 GPUDirect Storage 的存儲技術,能夠避免 GPU 的 I/O 瓶頸,幫助用戶加速各種 AI 業務 和數據密集型應用,同時大幅度提升寶貴 GPU 資源的利用率;

全局訪問:IBM Storage Scale 提供的全局數據平臺訪問能力,支持多種應用訪問協議互通(如對象、容器、HDFS 等等)和不同存儲環境,實現數據的整合和調度,結合其它存儲設備(包括磁帶)實現分層存儲,降低數據總體擁有成本,提升端到端的數據處理效率;

安全彈性:提供端到端的全面數據安全彈性解決方案,包括完善的數據高可用和容災解決方案,以及用于實現網絡安全彈性的 Safeguarded Copy 和安全日志審計能力。

374743a4-0c74-11ef-a297-92fbcf53809c.png

圖4:單個 IBM SSS 6000 模塊性能實測結果

為了充分發揮 IBM Storage Scale 高帶寬、低時延的優勢,通常用戶會采用支持 RDMA 的網絡來進行數據訪問,包括 InfiniBand 網絡RoCE(RDMA over Converged Ethernet)網絡。NVIDIA Spectrum-X 平臺具備 NVIDIA 獨有的 Adapt Routing 等專門面向 AI 的以太網網絡優化技術,可以在大規模集群中充分發揮出存儲系統的高帶寬的性能,為客戶打造高性能且穩定運行的 AI 集群提供穩定的網絡基礎。

以 AI 集群的數據業務流為例,數據從 GPU 顯存到網絡存儲服務器的網絡路徑會經過 GPU 集群上存儲平面的 Leaf 交換機到 Spine 交換機,再到 Leaf 交換機,最后連接到存儲服務器;AI 存儲業務是典型的大象流,傳統的以太網交換機是基于流為粒度的負載分擔,不難看出 GPU 集群內的 Leaf 層交換機和 Spine 交換機之間會有多條等價路徑,包括 Leaf 到不同 Spine 的等價路徑,也包括同一 Leaf 到 Spine 內多條鏈路的等價路徑,但是由于寫數據流 Hash key 值高度一致,導致,在 Leaf 層交換機不能將流充分的分配到不同的等價路徑上,這樣的技術對于目前大規模 AI 集群內的存儲業務來說會影響存儲數據流的傳輸帶寬,即便存儲系統本身性能強大,也會因為網絡成為瓶頸而不能發揮出應有的性能;而當采用 Adapt Routing 技術之后,由于是基于數據包為粒度的轉發機制,無論存儲數據流的數量大小,都可以均勻的將流量轉發到所有等價路徑上,從而消除網絡上的瓶頸,最大化的利用存儲系統的性能,提升存儲帶寬、降低存儲平面時延。這對基于以太網絡構建 AI 集群極為重要。

3765c7e8-0c74-11ef-a297-92fbcf53809c.png

圖5:開啟 AR 和關閉 AR 的轉發路徑對比

為了展示 Spectrum-X 平臺在存儲領域內的實際效果,如下圖所示,搭建一個 Demo 環境用于模擬 AI 存儲應用的典型場景,采用 4 臺搭載 NVIDIA BlueField-3 的服務器,兩臺計算節點配備 BlueField-3 DPU,兩臺存儲節點配備 BlueField-3 SuperNIC,采用 6 臺搭載 Spectrum-4 交換芯片的 SN5600 交換機組成典型的兩層 Spine-Leaf 胖樹網絡;并且,BlueField DPU 和 SuperNIC 均為為雙端口卡,每個端口連接到不同的 Leaf 交換機上,保證存儲平面的高可靠,同時開啟端口 Bonding,使得可以最大化利用端口性能。測試覆蓋 2 打 1 和 2 打 2 兩種場景,構造 RDMA 流量進行測試。

3791b7f4-0c74-11ef-a297-92fbcf53809c.png

圖6:Spectrum-X 存儲 AR 測試 Topo

在 2 打 1 和 2 打 2 的場景下,兩個計算節點同時發送流量給一個或 2 個存儲節點,模擬典型的存儲寫場景,對交換網絡的影響。在測試過程中,分別開啟 Adapt Routing 和關閉 Adapt Routing,收集接受端網絡帶寬,用于對比性能差異,測試如數據下圖所示,可以清楚看到,開啟 Adapt Routing 之后無論是 2 打 1,還是 2 打 2 場景,接受端網絡帶寬都已經接近物理帶寬 95% 以上。在沒有開啟 Adapt Routing 測試用例,流量在交換機之間網絡帶寬利用率大幅下降,最終測試的帶寬不足開啟 Adapt Routing 的一半。從而可以看出,采用了 Adapt Routing 技術的 Spectrum-X 平臺可以有效的解決存儲網絡內帶寬瓶頸,充分發揮存儲系統的性能,從而提升 AI 集群整體的效能。

37ae4270-0c74-11ef-a297-92fbcf53809c.png

圖7:2 打 1 和 2 打 2 場景下開啟 Adapt Routing

和 關閉 Adapt Routing 的帶寬對比

通過和 NVIDIA 網絡團隊的合作,采用 IBM Storage Scale 和 NVIDIA Spectrum-X 平臺實現軟件定義的數據基礎架構,使得搭建在 Spectrum-X 平臺上 IBM 的 Storage Scale 不僅可以面向云上應用提供基于以太網存儲生態的多種服務,同時也可以大幅提升存儲的性能,發揮出 IBM 的 Storage Scale 高吞吐大帶寬的性能優勢,滿足 AI 時代云上高性能存儲數據的要求。解決新一代以數據為中心的基礎設施所面臨的挑戰和技術瓶頸,為 AI 云應用提供高性能的底座,幫助客戶在混合云和 AI 時代實現競爭優勢。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4601

    瀏覽量

    101812
  • 以太網交換機

    關注

    0

    文章

    121

    瀏覽量

    14113
  • 數據存儲
    +關注

    關注

    5

    文章

    903

    瀏覽量

    50613
  • 人工智能
    +關注

    關注

    1777

    文章

    44001

    瀏覽量

    230976
  • 大數據
    +關注

    關注

    64

    文章

    8665

    瀏覽量

    136629

原文標題:NVIDIA Spectrum-X 助力 IBM 為 AI Cloud 提供高性能底座

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    NVIDIA宣布將以API形式提供Omniverse? Cloud

    NVIDIA Omniverse Cloud API 使開發者能夠將 Omniverse 技術集成到其設計與仿真工具和工作流中。
    的頭像 發表于 03-20 09:45 ?200次閱讀

    NVIDIA 發布全新交換機,全面優化萬億參數級 GPU 計算和 AI 基礎設施

    NVIDIA Quantum-X800 InfiniBand 網絡,打造性能最強大的 AI 專用基礎設施 NVIDIA Spectrum-X
    發表于 03-19 10:05 ?122次閱讀
    <b class='flag-5'>NVIDIA</b> 發布全新交換機,全面優化萬億參數級 GPU 計算和 <b class='flag-5'>AI</b> 基礎設施

    亞馬遜云科技與 NVIDIA 宣布開展戰略合作,為生成式 AI 提供全新超級計算基礎架構、軟件和服務

    計算機,用于 NVIDIA AI 研發和自定義模型開發。 搭載 NVIDIA GH200、H200、L40S 和 L4 GPU的全新亞馬遜 EC2 實例為生成式 AI、
    的頭像 發表于 11-29 21:00 ?395次閱讀
    亞馬遜云科技與 <b class='flag-5'>NVIDIA</b> 宣布開展戰略合作,為生成式 <b class='flag-5'>AI</b> <b class='flag-5'>提供</b>全新超級計算基礎架構、軟件和服務

    NVIDIA全新AI以太網絡平臺大幅提升AI性能

    NVIDIA 近日宣布,三家頭部系統制造商將率先在其服務器產品陣容中集成專為 AI 量身定制的 NVIDIA Spectrum-X? 以太網絡技術,幫助企業客戶加速生成式
    的頭像 發表于 11-27 14:31 ?427次閱讀

    戴爾科技、慧與和聯想即將推出 NVIDIA 全新 AI 以太網絡平臺

    基于最新 NVIDIA Spectrum-X 網絡端到端平臺,助力客戶通過 AI 實現業務轉型 NVIDIA 今日宣布,戴爾科技、慧與和聯想
    的頭像 發表于 11-21 21:50 ?337次閱讀
    戴爾科技、慧與和聯想即將推出 <b class='flag-5'>NVIDIA</b> 全新 <b class='flag-5'>AI</b> 以太網絡平臺

    戴爾科技、慧與和聯想即將推出 NVIDIA 全新 AI 以太網絡平臺

    基于最新 NVIDIA Spectrum-X 網絡端到端平臺, 助力客戶通過 AI 實現業務轉型 ? NVIDIA 今日宣布, 戴爾科技、慧
    發表于 11-21 18:18 ?156次閱讀
    戴爾科技、慧與和聯想即將推出 <b class='flag-5'>NVIDIA</b> 全新 <b class='flag-5'>AI</b> 以太網絡平臺

    NVIDIA 人工智能開講 | 什么是 Spectrum-X 網絡平臺?

    ”兩大音頻 APP 上搜索“ NVIDIA 人工智能開講 ”專輯,眾多技術大咖帶你深度剖析核心技術,把脈未來科技發展方向! 隨著生成式 AI 成為熱門話題,生成式 AI 所需要的基礎設施 —— 數據中心正在發揮著至關重要的作用
    的頭像 發表于 11-06 20:25 ?391次閱讀
    <b class='flag-5'>NVIDIA</b> 人工智能開講 | 什么是 <b class='flag-5'>Spectrum-X</b> 網絡平臺?

    全新NVIDIA Spectrum-X網絡平臺構筑阿里生成式AI底座

    全新 NVIDIA Spectrum-X 網絡平臺構筑阿里生成式 AI底座。
    的頭像 發表于 11-02 09:07 ?355次閱讀
    全新<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b>網絡平臺構筑阿里生成式<b class='flag-5'>AI</b>云<b class='flag-5'>底座</b>

    阿里云與 NVIDIA 合作測試以太網絡新架構

    全新 NVIDIA Spectrum-X 網絡平臺構筑阿里生成式 AI底座 隨著生成式 AI 的熱潮席卷全球,用于訓練生成式
    的頭像 發表于 11-01 09:30 ?187次閱讀

    NVIDIA AI 現已在 Oracle Cloud Marketplace 推出

    只需點點手指,即可訪問高性能加速計算和軟件,以運行安全、穩定且得到支持的生產級 AI。 這一業內首創的擴展為 Oracle Cloud 上的端到端開發和部署帶來了新功能。企業可以從 Oracle
    的頭像 發表于 10-24 10:30 ?245次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> 現已在 Oracle <b class='flag-5'>Cloud</b> Marketplace 推出

    NVIDIA 端到端網絡解決方案亮相“騰訊全球數字生態大會”,引領產業未來!

    網絡技術的最新進展 ,包含 NVIDIA Spectrum-XAI 性能和能效提升方面的成果 。 現場解鎖 NVIDIA 端到端網絡
    的頭像 發表于 09-06 19:15 ?655次閱讀
    <b class='flag-5'>NVIDIA</b> 端到端網絡解決方案亮相“騰訊全球數字生態大會”,引領產業未來!

    面向高性能和可擴展計算系統的IBM b-type網絡

    電子發燒友網站提供《面向高性能和可擴展計算系統的IBM b-type網絡.pdf》資料免費下載
    發表于 08-28 14:39 ?0次下載
    面向<b class='flag-5'>高性能</b>和可擴展計算系統的<b class='flag-5'>IBM</b> b-type網絡

    CLOUD4Y加速云存儲LSI的高性能解決方案

    電子發燒友網站提供CLOUD4Y加速云存儲LSI的高性能解決方案.pdf》資料免費下載
    發表于 08-23 10:35 ?0次下載
    <b class='flag-5'>CLOUD</b>4Y加速云存儲LSI的<b class='flag-5'>高性能</b>解決方案

    IBM Cloud Carbon Calculator 正式上市,助力企業實現可持續發展目標,減少溫室氣體排放

    Carbon Calculator 是一款融合了 AI 能力的儀表板,旨在幫助客戶訪問其 IBM Cloud 工作負載(如人工智能、高性能計算和金融服務)的排放數據。? 各行各業都在
    的頭像 發表于 07-28 14:10 ?300次閱讀
    <b class='flag-5'>IBM</b> <b class='flag-5'>Cloud</b> Carbon Calculator 正式上市,<b class='flag-5'>助力</b>企業實現可持續發展目標,減少溫室氣體排放

    COMPUTEX2023 | NVIDIA 推出面向超大規模生成式 AI 的加速以太網平臺

    全新的 NVIDIA Spectrum-X 網絡平臺集 NVIDIA Spectrum-4、BlueField-3 DPU 和加速軟件于一身;全球頭部云服務
    的頭像 發表于 05-30 01:40 ?382次閱讀
    COMPUTEX2023 | <b class='flag-5'>NVIDIA</b> 推出面向超大規模生成式 <b class='flag-5'>AI</b> 的加速以太網平臺
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>