昨晚睡得好嗎?睡不好可以刷快手的《11 點睡吧》。這部當代人睡眠困境的微綜藝,總曝光量達到 107 億,不但科普睡眠知識,更深度探討都市人的喜怒哀樂[1]。驚人的曝光量背后,是快手對用戶畫像數據的精準分析,離不開強大技術支持下的推薦系統,得以讓優質的內容被更多喜歡它的人看到。
作為超 3 億日活、日均千萬級短視頻上傳、強調社區普惠的短視頻 APP,快手推薦系統在大規模復雜業務中面臨著巨大性能挑戰。想要化解算力瓶頸,異構計算是一個重要選項,這種使用不同類型指令集和體系架構的計算單元組成系統的計算方式,能夠針對不同任務選擇最優的計算架構,從而充分揮各種計算機構的優勢,協同完成復雜的工作任務。
1
異構計算助拳,緩解參數服務器瓶頸
快手作為短視頻內容平臺,內容生產、內容理解、內容分發、內容消費、用戶互動這些環節,構成了大規模的復雜業務,對算力產生更多元的需求。舉例來說:在推薦業務場景中,需要根據用戶畫像推薦感興趣的內容,就要從海量信息中選擇與用戶特征相關的結果,再通過“排序”來劃分內容的優先級別。在這一過程中,參數服務器的作用非常重要,它負責存儲、處理海量數據特征以及排序模型參數,保證任務高效、準確地完成。
快手推薦系統采用計算與存儲分離的架構模式
快手的推薦系統為了應對海量數據沖擊,在架構上分離了計算與存儲。參數服務器屬于存儲型服務,該服務要保存和實時更新上億規模的用戶畫像、數十億規模的短視頻特征、以及千億規模的排序模型參數。受限于容量和帶寬的參數服務器,還要支撐每秒數億次的 KV 請求,耗費大量 CPU 資源。
要解決此類瓶頸,最佳方案是使用不同計算設備處理不同負載??焓值腖aoFe NDP 近數據架構,在計算體系結構上實現創新,使用英特爾 至強可擴展處理器、英特爾Agilex FPGA和英特爾傲騰 持久內存,借助軟硬一體化、領域專用加速器設計,從而做到網絡、存儲、計算三重加速,為各個業務系統提供低延遲、高并發、高吞吐、低總體擁有成本的基礎資源。
快手LaoFe NDP異構計算架構
2
持久內存+FGPA 專用硬件,
確保三重加速創新
在網絡層面,LaoFe NDP 架構將 CPU的網絡數據處理轉移到英特爾 Stratix 10 FPGA 上,同時基于該 FPGA 實現了“軟件定義遠程直接內存訪問”協議(SD-RDMA),大幅降低了請求延時。
在存儲層面,該架構打造了支持 SSD、英特爾 傲騰 持久內存、以及 DRAM 的 Key-Value 存儲引擎,將 CPU 層面的存儲操作也轉移到 FPGA 中,最大程度發揮 FPGA 的能力,相比 CPU 方案,將存儲引擎的吞吐能力提升 5 倍以上。該引擎還利用英特爾 傲騰 持久內存的特性,讓基于異構存儲的索引系統幾乎達到純 DRAM 相同的性能指標,成本降低 30%。同時相比之前小時級的故障恢復速度,異構存儲的索引系統只需幾分鐘就能重新上線。
LaoFe NDP 的計算加速仰仗 FPGA 作為領域專用處理,可以更有效地并行處理數據,提供更高效的內存層次結構與定制化的執行單元,從而支持機器學習、深度學習和大數據等場景。英特爾 FPGA 具備富于彈性的可編程硬件能力,延時低且可精確控制,單位算力功耗低、片上內存大,適合于快手延時要求高、批處理比較小、并發性和重復性強的應用場景。
快手LaoFe NDP 架構在英特爾軟硬件優化下,最終實現了如下優勢:
■系統吞吐顯著提升,延時顯著降低:參數服務器的吞吐性能提升了 5-6 倍,整體請求延時降低了 70%-80%,提供更好的用戶體驗。
■更好地控制 TCO:FPGA 的強大性能提供遠超傳統方案的吞吐能力,僅需部署少量的服務器就能滿足特性的性能指標要求,替代比可達到1:5,有效降低 TCO。
■降低性能抖動:基于CPU的軟件方案常因需要進行高頻率更新而出現性能抖動,而通過FPGA來處理負載,能大幅減少性能抖動。
通過快手的實踐能夠看出,以異構計算加速不同負載,能夠顯著提升在推薦等場景下的系統吞吐與延時表現。未來,英特爾還會和快手等合作伙伴一起,推進面向未來數據中心的異構參考架構,通過 CPU、IPU、XPU 的產品組合以及軟件堆棧,以及智能網絡結構,提供跨越整個數據管道的解決方案,高效挖掘海量數據中的智慧,讓用戶與用戶、用戶與內容、用戶與商品可及時按需建立高效、有溫度的連接互動。
審核編輯 :李倩
-
英特爾
+關注
關注
60文章
9509瀏覽量
169265 -
服務器
+關注
關注
12文章
8213瀏覽量
82802 -
異構計算
+關注
關注
2文章
93瀏覽量
16173
原文標題:英特爾助力快手實現異構計算加速,顯著提升性能,降低系統TCO
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論