<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種支持AI視頻處理的高容量流媒體加速卡方案

LiveVideoStack ? 來源:LiveVideoStack ? 2023-08-28 09:45 ? 次閱讀

本次要和大家分享的是AMD近期推出的新一代多媒體視頻加速卡,它主要應用于視頻處理場景,我們內部將它稱為異構加速卡,行業同仁更認可將其稱作視頻處理單元(VPU)。AMD或賽靈思此前的主要業務方向是研發數據中心級加速器卡,因而大家可能對此次媒體加速卡的發布感到驚訝,實際上這背后伴隨著深厚的研發背景。

賽靈思時期,我們的目標是實現FPGA在數據中心的算力落地,通過將FPGA包裝為PCIE擴展卡并部署在服務器上,使客戶可以按照自身需求調用加速卡的算力,最終推出了Alveo系列加速卡U200、U250和U280。

隨著FaaS(FPGA as a service)的落地,我們的工作進一步轉向應用化并發現了媒體加速方面的前景,因而開始進行編解碼器和IP核的自研設計。賽靈思還專門收購了編解碼器公司以推動VPU的開發,從而促成了上一代視頻流加速器卡U30和U50的誕生。

我們認為,雖然傳統的流媒體服務以及相關的視頻處理、壓縮是在服務器級CPU上的軟件中完成的。但隨著分辨率的增加,幀數要求提高,流媒體體量的增加,直播和互動流應用對低延遲的要求變得更加嚴格,傳統的CPU不能高效地處理這種場景。因而我們開始尋求異構加速的方法,用專業的芯片/IP來處理視頻流。

基于以上背景,我們認為下一代視頻加速卡要支持高質量、高密度、低時延的視頻處理,并要具備更好的拓展性,才能滿足當前低延時、高交互、大流量多媒體應用環境的需要。

我們將此次推出的新一代加速卡命名為Alveo MA35D Media Accelerator,它是業界首款基于ASIC的5nm視頻加速卡,在我們內部的芯片代號為supernova。

與我們上一代產品(Alveo U30)和傳統Xilinx芯片的聯系不同,它完全脫離了 FPGA,是一個專門應用于交互式流媒體大規模應用場景的針對性解決方案。它內部包含很多專用視頻單元和最先進的IP核,通過PCIE Gen 5.0和LPDDR5保證帶寬,充分助力視頻加速服務。

66a638d6-4536-11ee-a2ef-92fbcf53809c.png

Bluewave Consulting發布的調研成果促使我們下定決心推出新一代流媒體加速卡,該項研究指出了兩點,一是全球視頻流媒體市場正在快速增長。據預測,流媒體的市場價值將從 2022 年的略高于 600 億美元增至 2028 年的超過 2130 億美元,復合年增長率約為 20%。在美國這很大程度上要歸功于 Netflix、Amazon Prime、Hulu、Disney+、HBO 等服務商,國內現階段也存在諸如優酷、騰訊、愛奇藝、抖音、快手、Bilibili等大量視頻平臺,甚至微博、微信和知乎等應用也在逐步推出流媒體服務,幾乎所有公司都在進行流媒體方向的嘗試。二是流媒體服務正在迎來轉型。隨著流媒體市場的增長,直播業務所占份額越來越大(例如國內的抖音等直播平臺),至2021年已占到總量的70%。

66c9249a-4536-11ee-a2ef-92fbcf53809c.png

傳統流媒體服務架構的形式為廣播流媒體,是“一對百萬”的模式,該架構下視頻的輸入源一般較少。以體育賽事的轉播場景為例,場外的轉播車組織現場的數十臺攝像機拍攝賽事畫面,經過剪輯上傳至云端數據中心/核心網,過程中傳輸的流相對并不多。隨后視頻流被分發至CDN,廣大用戶通過ISP訪問CDN獲取視頻畫面。

雖然整個傳輸路徑較長,延遲相對較大,但該場景對實時性的要求不大,并且時延相對可控。同時由于輸入流較少,因而對轉碼的要求也不高。

迅猛增長的直播市場與傳統點播場景不同,每個人都能生成自己的流媒體,個人產生的視頻流可能與其他流混同,被不同人群在不同地點使用各異的終端設備觀看,過程中還伴隨著低時延和高交互等等要求。 這種場景的實際應用也越來越多,如online party、遠程醫療、云游戲場景和Zoom、Microsoft Teams等在線會議軟件。

不同用戶使用的設備可能不同,導致輸入源的格式、清晰度等等屬性五花八門。而以上場景都具備高交互性,對時延的要求相當高(如云游戲的時延要在10毫秒內),因而我們希望研發新一代芯片,能夠實現低時延、高容量、多路輸入(不同格式,不同速率,不同size)、多路輸出、多流交互的視頻處理。

671ac76e-4536-11ee-a2ef-92fbcf53809c.png

新一代直播場景是“百萬對百萬”的多對多模式。由于每個人都會產生視頻流,流的數量將進一步增加,并且突發式的增長會越來越多。直播的高交互性使視頻流傳輸可能將更多采用邊到邊傳輸,避免發送至云端數據中心。用戶們使用的終端設備不盡相同,對視頻流分辨率和碼率的要求也不一樣。

67445eb2-4536-11ee-a2ef-92fbcf53809c.png

為了應對直播場景帶來的技術挑戰,Alveo MA35D支持32路流的1080P60 ABR轉碼;每通道功耗僅有1W,峰值功耗約35W;4K編碼的最低延時達到8毫秒,1080P可以做到單幀2ms;支持做成單個U.2/M.2 的子卡或是多卡集成部署,支持筆記本、平板、園區、數據中心等多種不同部署環境,適配用戶的不同需求。與此同時,它還具備22 TOPS AI算力(INT8),可以通過AI技術來賦能智能視頻處理。

上一代U30的“U”代表通用,而MA35D的“MA”代表媒體加速器(Media Accelerator),表示該卡專為媒體加速場景設計。和上一代相比,MA35D實現了全面提升,它的通道密度提高了 4 倍,每通道功耗降低2倍,壓縮效率效果提高2倍,時延降低4倍。在實現以上提升的基礎上,功耗僅為上一代的一半。

67c4f680-4536-11ee-a2ef-92fbcf53809c.png

接下來介紹該卡的技術細節。首先四個位于該卡芯片四角的獨立編碼器和兩個解碼器支持當前主流編碼標準和下一代AV1標準;自適應比特率(ABR)縮放器支持變碼率、恒定QP、CBR、VBR等多樣化變換;合成器(Compositor)引擎支持多流分塊拼接、分層疊加等視頻合成處理,它是可編程的,可按照客戶自身需求改變輸出;VQ 前瞻(Look-Ahead)引擎用于在編碼前分析視頻流的動態特征,配合編碼器實時優化參數;視頻質量(VQ)和體驗質量(QoE)引擎作為在線質量分析引擎可以將編碼后視頻的質量分析結果實時反饋至編碼器和AI模塊,動態調整編碼器設置以達到更好的視頻輸出質量;AI處理器可以對視頻進行一些簡單的分類和檢測處理,依據結果實時調整編碼器參數,改善視頻質量。

67f99bba-4536-11ee-a2ef-92fbcf53809c.png

我們也致力于改善編解碼器的壓縮效率。據AMD內部測試結果顯示,在達到同等視覺質量的前提下,以X264 VeryFast為基準對比,AMD H.264編碼器可實現24%的碼率節省,H.265編碼器可節省47%,AV1編碼器可節省高達52%。如果加入AI處理環節,壓縮效率還將進一步提升。

6811a962-4536-11ee-a2ef-92fbcf53809c.png

上圖展示了X265和AMD AV1編碼相同視頻的實測VMAF測試結果??梢钥吹皆谕葪l件下,AMD AV1編碼視頻的質量接近于X265 Slow,尤其在碼率較低時表現相當好。

6838c01a-4536-11ee-a2ef-92fbcf53809c.png

AMD深度耦合前述的各類硬件單元形成了上圖所示的視頻處理管道,視頻解碼、縮放與合成、ABR縮放、AI處理、編碼、質量分析等步驟全部由硬件單元完成,通過將所有視頻處理功能硬化來最大限度減少CPU和加速卡之間的數據遷移。

6856f95e-4536-11ee-a2ef-92fbcf53809c.png

在云游戲和直播場景,大家可能遇到過畫面內字符顯示不清晰的問題,運用前述的AI技術則可對字符所在區域進行顯示質量的針對性優化。

68790aee-4536-11ee-a2ef-92fbcf53809c.png

用戶可通過我們隨卡附帶的AMD媒體加速軟件開發套件(SDK)訪問加速卡,它帶有FFmpeg、GStreamer接口,便于快速上手。高階用戶還可以通過AMD 媒體加速器接口客制化調用加速卡的各種視頻處理模塊。

68949f70-4536-11ee-a2ef-92fbcf53809c.png

接下來介紹MA35D的一次視頻處理性能演示,我們使用單卡雙芯片同時處理兩個4k60 8Mps H264流。其中一路解碼后分為四個流以不同碼率和編碼標準輸出,四個流中的三個在同服務器上使用加速卡自帶解碼器進行轉碼、編碼,傳輸至顯示器。另一路分為三個流按不同分辨率、碼率和編碼標準輸出,同第一路中的第四個流一并無線傳輸至不同設備解碼顯示。

68bea1f8-4536-11ee-a2ef-92fbcf53809c.png

如上所示,演示過程中第一路流在同服務器下的轉碼和解碼都達到了60fps水平,并且轉碼占用的CPU核1負載不大,核2到核8負責將解碼后YUV數據轉移至顯卡,因而出現了高負載情況。處理過程中的加速卡資源占用情況支持隨時調取查看。

68ffe35c-4536-11ee-a2ef-92fbcf53809c.png

上圖展示了演示的實時多流多終端傳輸顯示效果。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1608

    文章

    21367

    瀏覽量

    594663
  • 加速器
    +關注

    關注

    2

    文章

    766

    瀏覽量

    36718
  • 編解碼器
    +關注

    關注

    0

    文章

    230

    瀏覽量

    24033
  • 視頻處理器
    +關注

    關注

    3

    文章

    76

    瀏覽量

    15535
  • LPDDR5
    +關注

    關注

    2

    文章

    87

    瀏覽量

    11818

原文標題:支持AI視頻處理的高容量流媒體加速卡方案

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    OpenAI Sora模型需大量AI加速卡及電力支持

    若以每片H100加速卡3萬美元市價估算,總花費將高達216億美元(相當于1561.68億元人民幣),這僅是H100加速卡采購費用。該模型在運營時還會產生極高的能耗,每片H100能耗達到700瓦,72萬片則意味著能耗高達50.4億瓦。
    的頭像 發表于 03-27 15:58 ?258次閱讀

    英偉達發布最強AI加速卡Blackwell GB200

    英偉達在最近的GTC開發者大會上發布了其最新、最強大的AI加速卡——GB200。這款加速卡采用了新一代AI圖形處理器架構Blackwell,
    的頭像 發表于 03-20 11:38 ?541次閱讀

    英偉達發布超強AI加速卡,性能大幅提升,可支持1.8萬億參數模的訓練

    得益于NVIDIA每兩年進行一次GPU架構升級以提高性能的策略,全新的基于Blackwell的加速卡比之前的H100更為強大,尤其適用于AI相關任務。
    的頭像 發表于 03-19 12:04 ?291次閱讀

    英偉達發布最強AI加速卡GB200,開啟新一代AI圖形處理時代

    英偉達正式發布了其最新、也是迄今為止最強大的AI加速卡——GB200。這一重大發布標志著英偉達在AI圖形處理領域邁入了一個新的里程碑。
    的頭像 發表于 03-19 11:26 ?554次閱讀
    英偉達發布最強<b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>GB200,開啟新一代<b class='flag-5'>AI</b>圖形<b class='flag-5'>處理</b>時代

    今日看點丨英偉達發布最強 AI 加速卡--Blackwell GB200;三星面臨罷工 存儲市場供需引關注

    的 GTC 開發者大會上,正式發布了最強 AI 加速卡 GB200,并計劃今年晚些時候發貨。 ? GB200 采用新一代 AI 圖形處理器架構 Blackwell,黃仁勛在 GTC 大
    發表于 03-19 11:08 ?924次閱讀

    視頻解碼生成與流媒體傳輸的結合

    視頻解碼生成與流媒體傳輸是現代數字媒體技術中兩個不可或缺的部分,它們的結合為用戶提供了高質量、實時性的多媒體體驗。 1. 解碼生成與流媒體
    的頭像 發表于 02-21 14:36 ?118次閱讀

    瞬變對AI加速卡供電的影響

    圖形處理單元(GPU)、張量處理單元(TPU)和其他類型的專用集成電路(ASIC)通過提供并行處理能力來實現高性能計算,以滿足加速人工智能(AI
    的頭像 發表于 12-01 18:10 ?241次閱讀
    瞬變對<b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>供電的影響

    HPC領域的一款大殺器-HBX-G500大帶寬加速卡

    HBX-G500是一款高性能可編程加速卡,為AI、計算、網絡等領域,提供多通道的高帶寬存儲、高性能計算、先進高速接口等解決方案;
    的頭像 發表于 11-29 09:16 ?501次閱讀
    HPC領域的一款大殺器-HBX-G500大帶寬<b class='flag-5'>加速卡</b>

    瞬變對AI加速卡供電的影響

    圖形處理單元(GPU)、張量處理單元(TPU)和其他類型的專用集成電路(ASIC)通過提供并行處理能力來實現高性能計算,以滿足加速人工智能(AI
    的頭像 發表于 11-16 17:23 ?695次閱讀
    瞬變對<b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>供電的影響

    諾基亞狀告亞馬遜和惠普視頻流媒體專利侵權

    諾基亞狀告亞馬遜和惠普視頻流媒體專利侵權 10月31日諾基亞在美國特拉華州聯邦地區法院提起訴訟,諾基亞認為亞馬遜和惠普侵權了多項視頻流媒體相關的技術專利;涉及
    的頭像 發表于 11-01 16:33 ?358次閱讀

    AMD 為超低時延電子交易推出 Alveo UL3524 加速卡

    AMD Alveo UL3524 - 新款 AMD Alveo 金融科技加速卡能為交易公司和經紀商提供突破性的納秒級交易執行性能以及 AI 賦能的交易策略 - -?解決方案合作伙伴 Alpha
    的頭像 發表于 10-11 08:10 ?386次閱讀
    AMD 為超低時延電子交易推出 Alveo UL3524 <b class='flag-5'>加速卡</b>

    以色列 AI芯片獨角獸企業Hailo與立端科技(Lanner Electronics)合作開發PCIe AI加速卡Falcon Lite

    立端科技(Lanner Electronics)達成合作,共同推出新型PCIe AI加速卡Falcon Lite。這款加速卡基于Hailo-8邊緣AI
    的頭像 發表于 09-15 11:14 ?788次閱讀

    Intel媒體加速器參考軟件用戶指南

    英特爾媒體加速器參考軟件是用于數字標志、交互式白板(IWBs)和亭位使用模型的參考媒體播放器應用軟件,它利用固定功能硬件加速來提高媒體流速、
    發表于 08-04 07:07

    數字視頻時代,為什么流媒體加速CDN越來越重要?

    研究絕大多數表明,數字視頻現在代表了當今最重要的媒體格式。我們正生活在媒體和娛樂歷史發展的關鍵時刻,2023年在線視頻趨勢的增長仍在加速,今
    的頭像 發表于 07-28 16:48 ?268次閱讀

    使用英特爾開發者套件搭建RTMP流媒體服務器

    本文將會介紹如何使用英特爾 開發者套件——愛克斯開發板快速搭建 RTMP 流媒體服務器,并利用 FFmpeg* 實現視頻推流的功能。由于 FFmpeg 后端支持 OpenVINO 賦能,所以在
    的頭像 發表于 07-18 15:58 ?465次閱讀
    使用英特爾開發者套件搭建RTMP<b class='flag-5'>流媒體</b>服務器
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>