<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

利用NVIDIA組件提升GPU推理的吞吐

利用NVIDIA 組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網絡和熱 Embedding 全置于 GPU 上進行加速，吞吐相比 CPU 推理服務提升高于 3 倍。

應對GPU推理上的難題

唯品會（NYSE: VIPS）成立于 2008 年 8 月，總部設在中國廣州，旗下網站于同年 12 月 8 日上線。唯品會主營業務為互聯網在線銷售品牌折扣商品，涵蓋名品服飾鞋包、美妝、母嬰、居家、生活等全品類。

唯品會 AI 平臺服務于公司搜索、推薦、廣告等業務團隊，提供公司級一站式服務平臺。搜索、推薦、廣告等業務旨在通過算法模型迭代，不斷優化用戶購買體驗，從而提升點擊率和轉化率等業務指標，最終實現公司銷售業績增長。

在使用 GPU 打開推理算力天花板過程中，遇到了如下問題：

稠密網絡，如何獲取更好的 GPU 推理性能；

Embedding table 如何使用 GPU 加速查詢。

為了解決上面的問題，我們選擇使用了 NVIDIA TensorRT 和 Merlin HierarchicalKV。具體原因如下：

稠密網絡使用 TensorRT 推理，通過 TensorRT 和自研 Plugin 方式獲取更好的推理性能；

HierarchicalKV 是一個高性能 GPU Table 實現，我們將熱 Embedding 緩存在 GPU 中，冷 Embedding 則通過內存和分布式 KV 存儲，加速查表過程。

GPU推理服務設計方案

AI 平臺支持搜索、推薦、廣告等所有算法業務，提供大規模分布式訓練、推理、實時模型等基礎引擎平臺，打造屬于唯品會自己的 AI 基礎能力引擎。

圖 1. GPU 推理服務工作流程圖

如上圖所示，支持 GPU 推理服務，可以分為如下幾步：

TensorPS（自研訓練框架）

支持離線和實時訓練；

離線訓練：生成天級全量模型，完成后同步給 Odin；

實時訓練：生成小時級別的全量模型和分鐘級別的增量模型，完成后同步給 Odin；

2. Odin（模型協調者）

（離線/實時）單機模型的全量模型：觸發 TensorRT Converter；

（離線/實時）分布式模型的全量模型：同時觸發 TensorRT Converter 和 Reshard；

（離線/實時）單機/分布式模型的增量模型：觸發 TensorRT Converter；

3. TensorRTConverter（模型轉換器）

將 Dense 網絡轉換成 TensorRT Engine；

轉化完成，如果是全量模型，向模型管理 API 匯報全量版本；如果是增量模型，向模型管理 API 匯報增量版本；

4. Reshard（參數分片模塊）

對模型參數分片后，向模型管理 API 匯報版本；

分片后參數，同步到分布式在線參數服務 Atreus；

5. Thor（自研推理服務）

單機模型：通過模型管理 API 獲取全量模型版本，拉取模型并啟動推理服務 Thor；

分布式模型：需要部署分布式參數服務 Atreus 和推理服務 Thor；

如果開啟了實時模型特性，Thor 會定時通過模型管理 API 獲取增量版本，拉取并更新增量模型；

6. Atreus（自研分布式在線參數服務）

僅用于分布式模型，可支持 TB 級參數；

如果開啟了實時模型特性，Atreus 會定時通過模型管理 API 獲取增量版本，拉取并更新增量參數。

GPU模型推理

圖 2. 前向計算流程圖

如上圖所示，前向計算可以分為如下幾步：

H2D 拷貝（CPU -> GPU）；

Embedding 層，使用 GPU Table lookup（GPU）；

Dense 層，使用 TensorRT +自研 Plugin 推理（GPU）；

D2H 拷貝（GPU -> CPU）。

稠密網絡使用TensorRT在GPU上計算

圖 3. 稠密網絡 TensorRT 推理優化

如上圖所示：

稠密網絡使用 TensorRT 推理，結合自定義 Plugin 實現推理性能優化。

利用HierarchicalKV實現GPUTablelookup

圖 4. 基于 HierarchicalKV 的 GPU Table

如上圖所示，查表過程可以分為如下幾步：

將 keys 拷貝到 GPU；

將 keys concat 成一個大的 merged keys，減少后續查表次數；

merged keys 查 GPU Table，輸出 merged values，并輸出未命中 missed keys 和 missed indices；

拷貝 missed keys 到 CPU；

查詢 Atreus（分布式參數服務器），獲取 missed values；

missed values 拷貝到 GPU；

將 missed values 更新到 merged values；

將 merged values 輸出 Split 成多個 Tensor（和 keys 一一對應）；

對 missed keys 進行去重；

去重之后，異步更新 GPU Table。

TensorRTConverter實現GPU模型轉換

圖 5. TensorRT Converter 轉換流程

如上圖所示，TensorRT Converter 可以分為如下幾步：

Freeze CPU 模型；

切分模型 Graph 成 Sparse 和 Dense 兩個子圖，Sparse 圖在 GPU 上執行，Dense 圖經過圖優化后使用 TensorRT 推理；

Dense 圖轉化成 ONNX 模型；

優化 ONNX 模型，把圖中 OP 替換成自定義的高性能 TensorRT Plugin；

轉換 ONNX 模型成 TensorRT Engine；

合并 Sparse 圖和 TensorRT Engine 生成 GPU 模型。

自研CUDAKernel，提高性能

GPUTable加速查表

基于 HierarchicalKV 增強了 find 接口，支持獲取未命中 keys indices 等信息，在高命中率情況下有更好的性能，并貢獻給社區：

void find(const size_type n, 
      const key_type* keys,           // (n)
      value_type* values,            // (n, DIM)
      key_type* missed_keys,          // (n)
      int* missed_indices,           // (n)
      int* missed_size,             // scalar
      score_type* scores = nullptr,       // (n)
      cudaStream_t stream = 0) const

2. GPU支持CSR（Compressedsparserow）格式的序列特征

根據統計，序列特征有 85%+的數據都是填充值，使用 CSR 格式壓縮序列特征可以大幅度減小序列特征大小?？紤]到搜推序列數據的特殊性（填充值都在序列尾部），這里僅使用 value 和 offset 兩個序列表示原始稀疏矩陣，如下圖：

圖 6. CSR 的稀疏矩陣

通過 Fusion 的方式，減少 Lookup 過程 CUDA Kernel 數量，提升推理性能。

圖 7. Lookup 過程優化對比

優化前：N 個輸入對應 N 個 Lookup CUDA Kernel；

優化后：通過提前合并，將 CUDA Kernel 數量減少為 3 個（Concat、Lookup 和 Split）。

通過 Fusion 的方式，減少 CSR 處理過程 CUDA Kernel 數量，提升推理性能，下圖以 ReduceSum 舉例。

圖 8. CSR 處理優化流程

優化前：N 對輸入對應 N 個 ReduceSum CUDA Kernel；

優化后：通過提前合并，將 CUDA Kernel 數量減少為 4 個（2 個 Concat，1 個 ReduceSum 和 1 個 Split）。

3.H2D，合并CPU->GPU內存拷貝

搜推模型中有較多的特征輸入，GPU 推理中需要將這些 Tensor 從 CPU 拷貝到 GPU，頻繁小內存的 cudaMemcpy 會導致性能下降，最佳實踐是將這些 Tensor 打包在一塊連續內存中，將整個大內存 H2D 拷貝到 GPU。

4.Tile算子融合

搜推模型中有超過 200個 Tile，大量的 Kernel Launch 會帶來 GPU 推理性能惡化，最佳實踐是進行 Kernel Fusion，在一個大的算子中執行多個小 Kernel，從而充分發揮 GPU 的并發優勢。

持續在搜推廣場景中GPU加速

唯品會 AI 平臺一直追求性能上的極致，未來將會持續與 NVIDIA 技術團隊合作，繼續探索使用 HierarchicalKV 在訓練超大型模型上的 GPU 性能優化，在提升 GPU 性能方面進行不斷地探索和實踐，也會對 Generative Recommenders 進行探索和實踐。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4623

瀏覽量
101932
CSR

CSR

+關注

關注
3

文章
117

瀏覽量
69450
GPU芯片

GPU芯片

+關注

關注
1

文章
297

瀏覽量
5696

原文標題：利用 NVIDIA Merlin HierarchicalKV 實現唯品會在搜推廣場景中的 GPU 推理實踐

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

NVIDIA-SMI：監控GPU的絕佳起點

nvidia-smi可執行文件位于虛擬機管理程序上。如果在同一部署中您選擇在GPU上使用作為傳遞，那么GPU正在尋找訪客上的NVIDIA驅動程序，因此

發表于 09-04 15:18

NVIDIA 在首個AI推理基準測試中大放異彩

和TensorRT軟件的成熟程度。它們讓用戶能夠更加輕松地將所有的NVIDIA GPU應用于數據中心、邊緣等領域。MLPerf定義了五項推理基準，涵蓋了三個現有的人工智能應用：圖像分類、目標檢測和翻譯。每項基準

發表于 11-08 19:44

Nvidia GPU風扇和電源顯示ERR怎么解決

問題最近在Ubuntu上使用Nvidia GPU訓練模型的時候，如果機器鎖屏一段時間再打開的時候鼠標非?？D，或者說顯示界面非?？D，使用nvidia-smi查看發現，訓練模型的GPU

發表于 12-30 06:44

在Ubuntu上使用Nvidia GPU訓練模型

問題最近在Ubuntu上使用Nvidia GPU訓練模型的時候，沒有問題，過一會再訓練出現非?？D，使用nvidia-smi查看發現，顯示GPU的風扇和電源報錯：解決方案自動風扇控制在

發表于 01-03 08:24

充分利用Arm NN進行GPU推理

Arm擁有跨所有處理器的計算IP。而且，無論您要在GPU，CPU還是NPU上進行ML推理，都可以在一個通用框架下使用它們：Arm NN。Arm NN是適用于CPU，GPU和NPU的開源推理

發表于 04-11 17:33

NVIDIA Triton推理服務器簡化人工智能推理

GKE 的 Triton 推理服務器應用程序是一個 helm chart 部署程序，可自動安裝和配置 Triton ，以便在具有 NVIDIA GPU 節點池的 GKE 集群上使用，包括

發表于 04-08 16:43 ?1921次閱讀

使用NVIDIA GPU助力美團CTR預測服務升級

　　通過 NVIDIA T4 深度優化方案，成功為美團 CTR 模型創造更多應用機會，不僅極大地提升了系統吞吐量，更進一步地提升了整個模型訓練的速度與降低訓練成本，落實 AI 框架在

發表于 04-13 15:15 ?663次閱讀

NVIDIA T4 GPU和TensorRT加速微信搜索速度

　　使用NVIDIA T4 GPU以及TensorRT推理引擎進行INT8低精度推理，極大提升了微信搜索的速度，進一步

發表于 04-21 10:53 ?1327次閱讀

NVIDIA Triton助力騰訊PCG加速在線推理

　　借助NVIDIA Triton 推理框架，配合 DALI/FIL/Python 等Backend，以及 TensorRT，整體推理服務的吞吐能力最大

發表于 05-20 15:25 ?2161次閱讀

NVIDIA助力阿里巴巴天貓精靈大幅提升服務運行效率

NVIDIA Triton 推理服務器在 NVIDIA T4 GPU 上進行高效部署，幫助阿里巴巴天貓精靈流式 TTS 服務將吞吐

發表于 07-14 10:05 ?874次閱讀

騰訊云與NVIDIA仍持續為AI推理加速進行合作

Kit 不僅大大提升了 GPU 集群上多機多卡分布式訓練的效率，對于 GPU 上的模型推理也通過集成 NVIDIA TensorRT 帶來

發表于 08-31 09:24 ?1290次閱讀

騰訊云TI平臺利用NVIDIA Triton推理服務器構造不同AI應用場景需求

騰訊云 TI 平臺 TI-ONE 利用 NVIDIA Triton 推理服務器構造高性能推理服務部署平臺，使用戶能夠非常便捷地部署包括 TNN 模型在內的多種深度學習框架下獲得的 AI

發表于 09-05 15:33 ?1528次閱讀

螞蟻鏈AIoT團隊與NVIDIA合作加速AI推理

螞蟻鏈 AIoT 團隊與 NVIDIA 合作，將量化感知訓練(QAT)技術應用于深度學習模型性能優化中，并通過 NVIDIA TensorRT 高性能推理 SDK 進行高效率部署，通過 INT8

發表于 09-09 09:53 ?914次閱讀

NVIDIA GPU 加速 WPS Office AI 服務，助力打造優質的用戶體驗

案例介紹金山辦公與 NVIDIA 團隊合作，通過 NVIDIA Tensor Core GPU、TensorRT 提升圖像文檔識別與理解的推理

發表于 06-29 21:35 ?409次閱讀

利用NVIDIA產品技術組合提升用戶體驗

本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學習模型，并借助NVIDIA Triton推理服務器在NVIDIA V1

發表于 01-17 09:30 ?389次閱讀

NVIDIA英偉達企業解決方案
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot NVIDIA將深度學習引入計算機圖形領域以推動行業發展
Hot 一文講述Quadro RTX 5000帶來的性能提升

New 在西門子Teamcenter X上使用OpenUSD開啟制造業的未來
New 如何利用NVIDIA中的單視角3D追蹤功能減輕視覺感知中的遮擋現象？

精選推薦
更多

文章

資料

帖子

首發！飛凌嵌入式FETMX6ULL-S核心板已適配OpenHarmony 4.1

飛凌嵌入式
3小時前

53 閱讀

【GD32F470紫藤派開發板使用手冊】第十二講 SDIO-SD卡讀寫實驗

聚沃科技
2天前

117 閱讀

一文掌握集成電路封裝熱仿真要點

深圳(耀創)電子科技有限公司
2天前

140 閱讀

快速搞懂GPIO控制器的六種模式

信盈達
2天前

164 閱讀

引線框架貼膜工藝在QFN封裝制程中的應用

半導體封裝工程師之家
56分鐘前

135 閱讀

直流無刷電動機原理與技術應用

吳湛
30.7 MB

免費

2845下載

免費開源CC3D飛控資料（電路圖&PCB源文件、BOM、

KK
5.67 MB

1積分

126下載

鴻蒙內核中虛擬地址與物理地址之間是如何映射的

KK
0.73 MB

免費

9下載

tckfc TrueCrypt密鑰尋找工具

李超
0.00 MB

免費

1下載

Lumix Engine C++ 3D游戲引擎

陳俊
14.05 MB

免費

1下載

干貨推薦！相位補償到底是什么鬼？

打馬過草原
12小時前

62 閱讀

在全志V851SE開發板TinyVision上使用 SyterKit 啟動 Linux 6.7 主線內核

文小二
12小時前

103 閱讀

拼湊的用ESP32控制WS2815燈帶的電子開關電路把單片機燒了是什么原因？

jf_84291177
1天前

471 閱讀

求助求助，MPU6050模塊用DMP時的自檢問題

jf_86080928
2天前

517 閱讀

交換機的IEEE測試協議問題，該如何調整?

jf_76644416
2天前

719 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看