<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

異構計算助拳,緩解參數服務器瓶頸

英特爾中國 ? 來源:英特爾中國 ? 作者:英特爾中國 ? 2022-07-10 10:53 ? 次閱讀

昨晚睡得好嗎?睡不好可以刷快手的《11 點睡吧》。這部當代人睡眠困境的微綜藝,總曝光量達到 107 億,不但科普睡眠知識,更深度探討都市人的喜怒哀樂[1]。驚人的曝光量背后,是快手對用戶畫像數據的精準分析,離不開強大技術支持下的推薦系統,得以讓優質的內容被更多喜歡它的人看到。

作為超 3 億日活、日均千萬級短視頻上傳、強調社區普惠的短視頻 APP,快手推薦系統在大規模復雜業務中面臨著巨大性能挑戰。想要化解算力瓶頸,異構計算是一個重要選項,這種使用不同類型指令集和體系架構的計算單元組成系統的計算方式,能夠針對不同任務選擇最優的計算架構,從而充分揮各種計算機構的優勢,協同完成復雜的工作任務。

1

異構計算助拳,緩解參數服務器瓶頸

快手作為短視頻內容平臺,內容生產、內容理解、內容分發、內容消費、用戶互動這些環節,構成了大規模的復雜業務,對算力產生更多元的需求。舉例來說:在推薦業務場景中,需要根據用戶畫像推薦感興趣的內容,就要從海量信息中選擇與用戶特征相關的結果,再通過“排序”來劃分內容的優先級別。在這一過程中,參數服務器的作用非常重要,它負責存儲、處理海量數據特征以及排序模型參數,保證任務高效、準確地完成。

8a99da9c-fea9-11ec-ba43-dac502259ad0.png

快手推薦系統采用計算與存儲分離的架構模式

快手的推薦系統為了應對海量數據沖擊,在架構上分離了計算與存儲。參數服務器屬于存儲型服務,該服務要保存和實時更新上億規模的用戶畫像、數十億規模的短視頻特征、以及千億規模的排序模型參數。受限于容量和帶寬的參數服務器,還要支撐每秒數億次的 KV 請求,耗費大量 CPU 資源。

要解決此類瓶頸,最佳方案是使用不同計算設備處理不同負載??焓值腖aoFe NDP 近數據架構,在計算體系結構上實現創新,使用英特爾 至強可擴展處理器、英特爾Agilex FPGA和英特爾傲騰 持久內存,借助軟硬一體化、領域專用加速器設計,從而做到網絡、存儲、計算三重加速,為各個業務系統提供低延遲、高并發、高吞吐、低總體擁有成本的基礎資源。

8ab88ca8-fea9-11ec-ba43-dac502259ad0.png

快手LaoFe NDP異構計算架構

2

持久內存+FGPA 專用硬件,

確保三重加速創新

在網絡層面,LaoFe NDP 架構將 CPU的網絡數據處理轉移到英特爾 Stratix 10 FPGA 上,同時基于該 FPGA 實現了“軟件定義遠程直接內存訪問”協議(SD-RDMA),大幅降低了請求延時。

在存儲層面,該架構打造了支持 SSD、英特爾 傲騰 持久內存、以及 DRAM 的 Key-Value 存儲引擎,將 CPU 層面的存儲操作也轉移到 FPGA 中,最大程度發揮 FPGA 的能力,相比 CPU 方案,將存儲引擎的吞吐能力提升 5 倍以上。該引擎還利用英特爾 傲騰 持久內存的特性,讓基于異構存儲的索引系統幾乎達到純 DRAM 相同的性能指標,成本降低 30%。同時相比之前小時級的故障恢復速度,異構存儲的索引系統只需幾分鐘就能重新上線。

LaoFe NDP 的計算加速仰仗 FPGA 作為領域專用處理,可以更有效地并行處理數據,提供更高效的內存層次結構與定制化的執行單元,從而支持機器學習、深度學習和大數據等場景。英特爾 FPGA 具備富于彈性的可編程硬件能力,延時低且可精確控制,單位算力功耗低、片上內存大,適合于快手延時要求高、批處理比較小、并發性和重復性強的應用場景。

8ac6f964-fea9-11ec-ba43-dac502259ad0.png

快手LaoFe NDP 架構在英特爾軟硬件優化下,最終實現了如下優勢:

■系統吞吐顯著提升,延時顯著降低:參數服務器的吞吐性能提升了 5-6 倍,整體請求延時降低了 70%-80%,提供更好的用戶體驗。

■更好地控制 TCO:FPGA 的強大性能提供遠超傳統方案的吞吐能力,僅需部署少量的服務器就能滿足特性的性能指標要求,替代比可達到1:5,有效降低 TCO。

■降低性能抖動:基于CPU的軟件方案常因需要進行高頻率更新而出現性能抖動,而通過FPGA來處理負載,能大幅減少性能抖動。

通過快手的實踐能夠看出,以異構計算加速不同負載,能夠顯著提升在推薦等場景下的系統吞吐與延時表現。未來,英特爾還會和快手等合作伙伴一起,推進面向未來數據中心的異構參考架構,通過 CPU、IPU、XPU 的產品組合以及軟件堆棧,以及智能網絡結構,提供跨越整個數據管道的解決方案,高效挖掘海量數據中的智慧,讓用戶與用戶、用戶與內容、用戶與商品可及時按需建立高效、有溫度的連接互動。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    60

    文章

    9509

    瀏覽量

    169265
  • 服務器
    +關注

    關注

    12

    文章

    8213

    瀏覽量

    82802
  • 異構計算
    +關注

    關注

    2

    文章

    93

    瀏覽量

    16173

原文標題:英特爾助力快手實現異構計算加速,顯著提升性能,降低系統TCO

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI服務器異構計算深度解讀

    AI服務器按芯片類型可分為CPU+GPU、CPU+FPGA、CPU+ASIC等組合形式,CPU+GPU是目前國內的主要選擇(占比91.9%)。
    發表于 04-12 12:27 ?193次閱讀
    AI<b class='flag-5'>服務器</b><b class='flag-5'>異構計算</b>深度解讀

    高通NPU和異構計算提升生成式AI性能?

    異構計算的重要性不可忽視。根據生成式AI的獨特需求和計算負擔,需要配備不同的處理器,如專注于AI工作負載的定制設計的NPU、CPU和GPU。
    的頭像 發表于 03-06 14:15 ?270次閱讀

    服務器遠程不上服務器怎么辦?服務器無法遠程的原因是什么?

    。 解決辦法:一般剛開始拿到的服務器的端口服務器商會主動幫忙設置好的,在這之后更換了的端口記得要加進防火墻策略哦, 不會操作的話可以聯系服務器商幫忙操作。 3.已超出遠程計算機上的連接
    發表于 02-27 16:21

    linux服務器和windows服務器

    ,Linux服務器表現出更好的性能和穩定性,因此廣泛應用于科學計算、大數據處理和網絡服務器等領域。 另一方面,Windows服務器是由微軟開發和維護的
    發表于 02-22 15:46

    GPU交期緩解,AI服務器廠商營收暴漲

    上的煩惱。然而,在2023年上下游的共同努力下,2024年開年之際,AI服務器的供應問題終于有了顯著緩解。 ? 營收翻倍,股價暴漲的超微 ? 超微于近期公布了他們2024財年Q2季度的財報數據,其營收達到了創紀錄的36.6億美元,相較去年有了103%的同比增長
    的頭像 發表于 02-20 00:17 ?2322次閱讀
    GPU交期<b class='flag-5'>緩解</b>,AI<b class='flag-5'>服務器</b>廠商營收暴漲

    物理服務器對ai發展的應用

    物理服務器在AI發展中扮演著重要的角色。傳統的以CPU為計算部件的服務器架構已難以滿足人工智能的新需求,因此,"CPU+ GPU/FPGA/ASIC"的異構計算架構成為人工智能
    的頭像 發表于 12-22 09:19 ?237次閱讀

    輕量云服務器和云服務器的5個區別

    輕量云服務器和云服務器都屬于云計算領域,但它們在性能、配置、定價和適用場景上存在一些區別。
    的頭像 發表于 11-28 17:22 ?3249次閱讀

    什么是異構集成?什么是異構計算?異構集成、異構計算的關系?

    異構集成主要指將多個不同工藝節點單獨制造的芯片封裝到一個封裝內部,以增強功能性和提高性能。
    的頭像 發表于 11-27 10:22 ?3609次閱讀
    什么是<b class='flag-5'>異構</b>集成?什么是<b class='flag-5'>異構計算</b>?<b class='flag-5'>異構</b>集成、<b class='flag-5'>異構計算</b>的關系?

    請問模型推理只用到了kpu嗎?可以cpu,kpu,fft異構計算嗎?

    請問模型推理只用到了kpu嗎?可以cpu,kpu,fft異構計算嗎?
    發表于 09-14 08:13

    基于ARM SoC的陣列服務器MARS3500S介紹

    本期我們帶來高算力AI模組前沿應用,基于ARM架構的SoC陣列式服務器相關內容。該類服務器具有創新架構、異構計算、高算力、高能效,有望成為未來信息化社會的智能算力底座??蓮V泛應用于云游戲、云手機、視頻編解碼、邊緣
    的頭像 發表于 08-25 11:38 ?1049次閱讀
    基于ARM SoC的陣列<b class='flag-5'>服務器</b>MARS3500S介紹

    新一代計算架構超異構計算技術是什么 異構走向超異構案例分析

    異構計算架構是一種將不同類型和規模的硬件資源,包括CPU、GPU、FPGA等,進行異構集成的方法。它通過獨特的軟件和硬件協同設計,實現了計算資源的靈活調度和優化利用,從而大大提高了計算
    發表于 08-23 09:57 ?481次閱讀
    新一代<b class='flag-5'>計算</b>架構超<b class='flag-5'>異構計算</b>技術是什么 <b class='flag-5'>異構</b>走向超<b class='flag-5'>異構</b>案例分析

    異構計算場景下構建可信執行環境

    本文轉載自 OpenHarmony TSC 《峰會回顧第4期 | 異構計算場景下構建可信執行環境》 演講嘉賓 | 金意兒 回顧整理 | 廖濤 排版校對 | 李萍萍 嘉賓簡介 金意兒,華為可信計算
    發表于 08-15 17:35

    美格高算力AI模組為SoC陣列式服務器提供澎湃算力

    本期我們帶來高算力AI模組前沿應用,基于ARM架構的SoC陣列式服務器相關內容。澎湃算力、創新架構、異構計算,有望成為未來信息化社會的智能算力底座。
    的頭像 發表于 07-27 17:13 ?878次閱讀

    科技云報道:大模型的火燒到了AI服務器

    異構服務器或是大勢所趨
    的頭像 發表于 07-27 08:50 ?379次閱讀

    異構計算的初步創新

    更 高,x16帶寬(雙向)從64 GB/s提 升到了128 GB/s;目前規范制定已迭 代至6.0版本,帶寬再翻倍。 異構計算的初步創新:在
    的頭像 發表于 06-19 11:26 ?481次閱讀
    <b class='flag-5'>異構計算</b>的初步創新
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>