<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

NVIDIA網絡運營商優化Kubernetes橫向擴展GPU部署和管理

GPU 加速計算在云計算、企業計算和邊緣計算領域的日益普及，越來越依賴于強健而強大的網絡基礎設施。 NVIDIA ConnectX SmartNICs 和 NVIDIA BlueField DPU 提供了高吞吐量、低延遲的連接，使 GPU 資源能夠跨節點群擴展。為了滿足對云本地 AI 工作負載的需求， NVIDIA 提供了 GPU 運營商，旨在簡化 Kubernetes 上的橫向擴展 GPU 部署和管理。

今天， NVIDIA 宣布了 NVIDIA 網絡運營商的 1.0 版本。作為 NVIDIA GPU 運算符的一個模擬，網絡運營商通過自動化網絡部署和配置的各個方面簡化了 Kubernetes 的擴展網絡設計，否則就需要手工操作。它在具有 NVIDIA 網絡接口的任何集群節點上加載所需的驅動程序、庫、設備插件和 CNI 。

與 GPU 運營商配合，網絡運營商啟用了 GPU 直接 RDMA ，這是一項關鍵技術，可將云本地 AI 工作負載加速幾個數量級。該技術在 NVIDIA GPU 之間提供了高效的零拷貝數據傳輸，同時利用了 SmartNICs 和 DPU 中的硬件引擎。圖 1 顯示了兩個 GPU 節點之間的 GPU 直接 RDMA 技術。節點 1 上的 GPU 通過網絡直接與節點 2 上的 GPU 通信，繞過 CPU 設備。

圖 1 。 GPU 兩個 GPU 節點之間的直接 RDMA 技術

NGC 網絡運營商現在可在 NGC 和 NVIDIA 上使用 Kubernetes 自定義資源（ CRD ）和操作員框架來提供實現加速聯網所需的主機軟件。這篇文章討論了網絡運營商內部的內容，包括它的特性和功能。

易于部署和操作的 Kubernetes 網絡

網絡運營商致力于使 Kubernetes 網絡變得簡單和輕松。它是 Apache2 。 0 許可下的一個開源軟件項目。 1.0 版本針對運行在裸機服務器基礎設施和 Linux 虛擬化環境中的 Kubernetes 進行了驗證。以下是 1.0 版的主要功能：

在裸機 Kubernetes 環境中自動部署主機軟件組件，以實現以下功能：

macvlan 輔助網絡

SR-IOV 二次網絡（分配給 pod 的 VF ）

主機設備輔助網絡（分配給 pod 的 PF ）

GPU 直接 RoCE （使用 NVIDIA GPU 運算符）

在嵌套的 Kubernetes 環境（在 Linux VMs 中運行的 Kubernetes Pods ）中自動部署主機軟件組件，以創建以下內容：

SR-IOV 二級網絡（分配給 VM 的 VF 的#個，并通過不同的 POD ）

主機設備輔助網絡（分配給 Pod 的 PF ）

GPU 直接 RoCE （使用 NVIDIA GPU 運算符）

平臺支持：

Kubernetes v1 。 17 或更高版本

容器運行時： Containerd

裸機主機操作系統/ Linux 來賓操作系統： Ubuntu 20 。 04

Linux KVM 虛擬化

舵圖安裝

雖然啟用了 GPU 的節點是一個主要用例，但是網絡運營商對于啟用獨立于 NVIDIA GPU 的加速 Kubernetes 網絡環境也很有用。一些示例包括設置 SR-IOV 網絡和 DPDK 以加速電信 NFV 應用程序、建立 RDMA 連接以快速訪問 NVMe 存儲等等。

NVIDIA 網絡運營商內部

網絡運營商被設計成一個 Kubernetes 運營商，它利用多個定制資源為一個節點添加加速的網絡功能。 1 。 0 版本支持多種網絡模型，可適應各種 Kubernetes 網絡環境和不同的應用程序需求。如今，網絡運營商只為二級網絡配置 RoCE 。這意味著主吊艙網絡保持不變。將來的工作可能會允許為主網絡配置 RoCE 。

以下各節介紹網絡運營商打包和使用的不同組件。

節點功能發現

節點功能發現（ NFD ）是一個 Kubernetes 插件，用于檢測硬件特性和系統配置。網絡運營商使用 NFD 來檢測安裝了 NVIDIA SmartNICs 和 GPU 的節點，并將它們標記為這樣的節點?；谶@些標簽，網絡運營商安排適當的軟件資源。

CNI 木耳

Multus CNI 是 Kubernetes 的容器網絡接口（ CNI ）插件，支持將多個網絡接口連接到 pod 。通常在庫伯內特斯，每個吊艙只有一個網絡接口。使用 Multus ，您可以創建具有多個接口的多宿主 Pod 。 Multus 充當一個 meta-plugin ，一個可以調用多個其他 CNI 插件的 CNI 插件。 NVIDIA 網絡運營商安裝 Multus ，將用于高速 GPU – GPU 通信的二級網絡添加到集裝箱吊艙中。

NVIDIA OFED 驅動器

NVIDIA OpenFabrics 企業分銷（ OFED ）網絡庫和驅動程序由節點標簽網絡團隊打包和測試。 NVIDIA OFED 通過 Infiniband 和以太網互連支持遠程直接內存訪問（ RDMA ）。網絡運營商使用 NVIDIA 將預編譯的 NVIDIA OFED 驅動程序容器部署到每個 Kubernetes 主機上。容器在啟動或停止時加載和卸載 NVIDIA OFED 驅動程序。

NVIDIA 對等內存驅動程序

NVIDIA 對等內存驅動程序是一個客戶端，它與網絡驅動程序交互，以在 GPU 和主機內存之間提供 RDMA 。網絡運營商在同時具有 ConnectX 適配器和 NVIDIA GPU 的節點上安裝 NVIDIA 對等內存驅動程序。當容器啟動和停止時，此驅動程序也會自動加載和卸載。

RDMA 共享設備插件

Kubernetes 設備插件框架向 Kubernetes 節點上運行的 Kubelet 代理播發系統硬件資源。網絡運營商部署 RDMA 共享設備插件向 Kubelet 播發 RDMA 資源，并向節點上運行的 pod 公開 RDMA 設備。它允許吊艙執行 RDMA 操作。節點上運行的所有 pod 共享對相同 RDMA 設備文件的訪問。

容器網絡 CNI 插件

Macvlan CNI 公司和主機設備 CNI 是在 CNI 項目下托管的通用容器網絡插件。 macvlan CNI 創建一個新的 MAC 地址，并將所有通信轉發到容器。主機設備 CNI 將已經存在的設備移動到容器中。網絡運營商使用這些 CNI 插件創建 macvlan 網絡，并將 NIC 物理功能分別分配給容器或虛擬機。

SR-IOV 設備插件和 CNI

SR-IOV 是一種在虛擬機或容器吊艙與 NIC 硬件之間提供直接接口的技術。它繞過了主機 CPU 和操作系統，從 I / O 任務中釋放出昂貴的 CPU 資源，并大大加快了連接速度。 SR-IOV 設備插件和 CNI 插件啟用 Kubernetes 節點上可用的 SR-IOV 虛擬功能（ VF ）。這兩者都是網絡運營商創建 SR-IOV VF 并將其分配給處理 GPU -to- GPU 通信的二級網絡所必需的。

SR-IOV 操作員

SR-IOV 操作符旨在幫助用戶在集群中提供和配置 SR-IOV 設備插件和 SR-IOV CNI 插件。網絡運營商使用 SR-IOV 操作員在 Kubernetes 集群中部署和管理 SR-IOV 。

Whereabouts CNI

Whereabouts CNI 是一個 IP 地址管理（ IPAM ） CNI 插件，可以在 Kubernetes 集群中分配 IP 地址。網絡運營商使用此 CNI 為承載 GPU -to- GPU 通信的二級網絡分配 IP 地址。

更好的結合： NVIDIA 加速計算和網絡

圖 2 顯示了網絡運營商如何與 GPU 運營商協同工作來部署和管理主機網絡軟件。

圖 2 。網絡運營商與 NVIDIA GPU 運營商一起安裝，以在 EGX 堆棧上自動化 GPU 直接 RDMA 配置

以下部分描述了支持的網絡模型和相應的主機軟件組件。

RoCE 共享模式

共享模式意味著在節點上的多個容器 pod 之間共享單個 IB 設備的方法。此網絡模型針對需要高性能網絡的企業和邊緣環境進行了優化，無需多租戶。網絡運營商安裝以下軟件組件：

Multus CNI

RoCE 共享模式設備插件

Macvlan CNI

Whereabouts IPAM CNI

網絡運營商還在 GPU 節點上安裝 NVIDIA OFED 驅動程序和 NVIDIA 對等內存。

SR-IOV 、 RoCE 和 DPDK 網絡

如前所述， SR-IOV 是一種提供對 NIC 硬件的直接訪問的加速技術。此網絡模型針對運行在裸機上的多租戶 Kubernetes 環境進行了優化。網絡運營商安裝以下軟件組件：

Multus CNI

SR-IOV 設備插件

SR-IOV CN

Whereabouts IPAM CNI

網絡運營商還在 GPU 節點上安裝 NVIDIA OFED 驅動程序和 NVIDIA 對等內存。

NIC PF 直通

這種網絡模式適合要求極高的應用。網絡運營商可以將 NIC 物理功能分配給 Pod ，以便 Pod 充分利用它。網絡運營商安裝以下主機軟件組件：

Multus CNI

SR-IOV 設備插件

主機開發 CNI

Whereabouts IPAM CNI

網絡運營商還在 GPU 節點上安裝 NVIDIA OFED 驅動程序和 NVIDIA 對等內存。

為橫向擴展 GPU 集群優化 Kubernetes 網絡

NVIDIA GPU 和網絡運營商都是 NVIDIA EGX 企業平臺的一部分，該平臺允許 GPU 加速計算與傳統企業應用程序在同一 IT 基礎設施上協同工作?？偠灾?，運營商使 NVIDIA GPU 成為庫伯內特斯的一等公民?，F在發布用于生產環境，網絡運營商簡化了 Kubernetes 網絡，帶來了必要的簡單性和可擴展性級別，以便在企業中實現擴展培訓和邊緣推斷。

關于作者

Itay Ozery 是 NVIDIA 網絡產品營銷總監。他為 Mellanox 的云網絡解決方案推動戰略性產品營銷和產品管理計劃。 Itay 在網絡安全領域領導了大規模的業務和項目，并與數據中心和電信服務提供商在 IT 系統和網絡工程領域擔任過多個職位。

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

運營商

運營商

+關注

關注
4

文章
2363

瀏覽量
43873
NVIDIA

NVIDIA

+關注

關注
14

文章
4644

瀏覽量
101990
gpu

gpu

+關注

關注
27

文章
4470

瀏覽量
127060

評論

相關推薦

NVIDIA與微軟擴展合作，幫助開發者更快構建和部署AI應用

NVIDIA 在 Microsoft Build 開發者大會上展示了與 Microsoft Azure 和 Windows PC 的集成解決方案，簡化了 AI 模型部署并優化了路徑規劃和應用性能。

的頭像

發表于 05-23 10:14 ?143次閱讀

Nvidia Jetson Nano + CYW55573/AWXB327MA-PUR M.2無法使用操作系統內置的網絡管理器管理Wi-Fi如何解決？

%E2%84%A2%20CYW5557.... 我們可以使用命令行指令成功連接互聯網。但是，我們無法使用操作系統內置的網絡管理器管理 Wi-Fi。網絡

發表于 05-23 06:47

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網絡和熱

的頭像

發表于 04-20 09:39 ?231次閱讀

Edge Impulse發布新工具，助 NVIDIA 模型大規模部署

借助 Edge Impulse 和 NVIDIA TAO 工具包的協同效應，工程師得以快速構建并部署至邊緣優化硬件（如上述型號）的計算機視覺模型。該平臺還支持用戶運用經由 GPU

的頭像

發表于 03-25 16:00 ?360次閱讀

NVIDIA 發布全新交換機，全面優化萬億參數級 GPU 計算和 AI 基礎設施

NVIDIA Quantum-X800 InfiniBand 網絡，打造性能最強大的 AI 專用基礎設施 NVIDIA Spectrum-X800 以太網絡，數據中心必備的

發表于 03-19 10:05 ?155次閱讀

<b class='flag-5'>NVIDIA</b> 發布全新交換機，全面<b class='flag-5'>優化</b>萬億參數級 <b class='flag-5'>GPU</b> 計算和 AI 基礎設施

Google Gemma優化后可在NVIDIA GPU上運行

2024 年 2 月 21 日，NVIDIA 攜手 Google 在所有 NVIDIA AI 平臺上發布面向 Gemma 的優化功能，Gemma 是 Google 最先進的新型輕量級 2B 和 7B 開放語言模型，可在任何地方運

的頭像

發表于 02-25 11:01 ?271次閱讀

光網絡自動化助力運營商實現成本削減高達81%

在部署光網絡自動化后，運營商預計能夠節省高達81%的成本。這一顯著降低成本主要得益于自動化在多個領域的優勢，包括網絡和服務生命周期管理。

發表于 02-20 15:10 ?138次閱讀

使用Jenkins和單個模板部署多個Kubernetes組件

在持續集成和部署中，我們通常需要部署多個實例或組件到Kubernetes集群中。通過Jenkins的管道腳本，我們可以自動化這個過程。在本文中，我將演示如何使用Jenkins Pipeline及單個

的頭像

發表于 01-02 11:40 ?306次閱讀

使用Jenkins和單個模板<b class='flag-5'>部署</b>多個<b class='flag-5'>Kubernetes</b>組件

動態BGP與靜態BGP的區別

點在IDC服務商的路由器上，這樣可以控制到各個運營商的路由優先級，當某個運營商網絡質量較差或者出現網絡故障時，可以動態調整

發表于 12-01 16:55

Jenkins pipeline是如何連接Kubernetes的呢？

Kubernetes 是一個開源的容器編排平臺，可以幫助開發團隊管理和部署容器化的應用程序。

的頭像

發表于 10-23 11:13 ?1543次閱讀

Jenkins pipeline是如何連接<b class='flag-5'>Kubernetes</b>的呢？

使用 NVIDIA Jetson 優化功率

，還配有高效率的功率管理集成電路（PMIC）、穩壓器和電源樹來進行功率效率優化。NVIDIA 提供多種工具和資源，幫助您充分利用功率架構并優化資源使用：各種功率模式功率、散熱和電氣

的頭像

發表于 10-19 11:10 ?336次閱讀

使用 <b class='flag-5'>NVIDIA</b> Jetson <b class='flag-5'>優化</b>功率

k8s架構篇：服務部署模式是如何變遷的

kubernetes，簡稱 K8s，是用 8 代替中間 8 個字符 “ubernete” 而成的縮寫，是一個開源的，用于管理云平臺中多個主機上的容器化的應用，Kubernetes 的目標是讓部

發表于 10-15 15:39 ?417次閱讀

k8s是什么意思？kubeadm部署k8s集群（k8s部署）|PetaExpres

k8s是什么意思？ kubernetes簡稱K8s，是一個開源的，用于管理云平臺中多個主機上的容器化的應用，Kubernetes的目標是讓部署容器化的應用簡單并且高效（powerful

發表于 07-19 13:14 ?657次閱讀

芯片如何改變5G的部署和運營

本文將從7個方面來介紹優化的、創新的芯片如何改變5G的部署和運營。

發表于 07-13 16:50 ?376次閱讀

Awesome 工具如何更好地管理Kubernetes

應用程序，那么 Kubernetes 是必備工具之一。有數百種工具可與 Kubernetes 配合使用以添加更多功能。我說的是用于更好地管理，安全性，儀表板和 Kubernetes 集

發表于 06-25 16:12 ?392次閱讀

星星科技指導員
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot MAX16833高壓高亮度LED驅動器的分步設計過程
Hot 在開發平臺上使用VITIS AI加速AI應用

New 微電網系統控制方法和原理
New 飛輪儲能系統的核心及優勢分析

精選推薦
更多

文章

資料

帖子

ELF 1技術貼|如何在Ubuntu中編譯OpenCV庫

ElfBoard
1天前

475 閱讀

【項目展示】基于CW32的遙控循跡小車

CW32生態社區
1天前

410 閱讀

精進嵌入式開源開發技能，RT-Thread?SMP培訓即將來襲！

RT-Thread官方賬號
2天前

126 閱讀

手把手教你如何在Purple Pi OH上開發板安裝Opencv

觸覺智能
2天前

222 閱讀

鴻蒙開發接口媒體：【@ohos.multimedia.image (圖片處理)】

jf_46214456
1天前

523 閱讀

ADS8515/ADS8519 IBIS Model

李娟
288

免費

66下載

基于openharmony適配移植的簡化Spanner庫

姚小熊27
1.53 MB

免費

1下載

CDChatList高性能聊天頁面解決方案

陳杰
11.41 MB

免費

1下載

DIY arduino UNO防護罩

陳勇
0.96 MB

免費

1下載

8A34043 ClockMatrix評估套件數據手冊

2.07 MB

免費

0下載

有關PL端利用AXI總線控制PS端DDR進行讀寫（從機wready信號一直不拉高）

jf_86841278
2天前

682 閱讀

LDO電源模塊如何快速設計布局

鄒夢雨
2天前

511 閱讀

全志H616（BIGTREETECH CB1）和博通BCM2711（樹莓派4B）CPU對比測試

corkia
2天前

483 閱讀

請教一個三極管推Pmos管的電路問題

雪舞風華
2天前

876 閱讀

用全志XR806開發板輕松連上華為云實現物聯網

corkia
2天前

478 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看