<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

镕銘微電子VPU如何降本增效

LiveVideoStack ? 來源:LiveVideoStack ? 2023-06-12 09:33 ? 次閱讀

當前視頻行業環境下,硬件芯片的機遇與挑戰并存,如何使得硬件芯片產品及方案設計更好地貼近用戶、服務用戶及滿足用戶更深層次需求?本次LiveVideoStackCon 2022 北京站邀請到镕銘微電子解決方案架構總監——蔡媛Amy,為大家介紹镕銘微電子VPU如何幫助客戶實現極致增效降"本",并介紹基于新一代Quadra VPU的全球首個硬件智能極速高清產品,如何將歷來成本高企的AI增強視頻產品帶入到規模應用中。

文/蔡媛Amy 編輯/LiveVideoStack 大家好,我是镕銘微電子解決方案架構團隊負責人的蔡媛 Amy,本次分享的題目是镕銘微電子VPU極致降本增效實踐,主要介紹在生產實踐中,如何使用镕銘VPU產品在規?;瘧弥袔椭蛻魧崿F極致降本增效,給大家帶來新的應用方案和啟發。我會從以下幾個方面進行介紹:

-01-

镕銘微電子公司及產品介紹

NETINT是一家專注于新型智能存儲和視頻/圖像編解碼解決方案的科技公司,在國內的上海、北京、濟南,加拿大的溫哥華和多倫多都設有研發中心。NETINT自主設計的VPU可提供基于ASIC的超大規模、超高密度、超低延遲的視頻解決方案,我們的視頻轉碼器產品已被全球眾多頂級大公司所使用。

镕銘微電子的使命是為云和數據中心提供強大的算力,長期愿景是成為世界上最好的數據中心芯片公司。我們的產品主要包括視頻處理芯片VPU和軟硬件結合的視頻處理解決方案,前者在功能上提供視頻編解碼能力,輔助視頻編解碼的AI處理能力以及2D圖像引擎的處理能力,后者包括三種產品形態,第一種是VPU服務器板卡,第二種是搭載芯片的視頻處理一體機,第三種是基于視頻處理一體機的端到端視頻解決方案。

镕銘微電子是視頻處理芯片 VPU 定義者和視頻處理方案創新企業,镕銘微電子設計出了多款高度創新的芯片產品,被廣泛應用于云數據中心、邊緣計算公司及媒體內容提供商,最大程度地降低視頻處理和數據儲存的成本。VPU產品技術位居全球第一,并且已經成功研發兩代芯片,第一代產品已經在全球頭部客戶處大規模驗證和應用部署,同時也是數據中心大芯片領域的創業公司中出貨量最大的獨角獸企業。

d39e397a-08b4-11ee-962d-dac502259ad0.png

圖中展示了兩代產品,第一代是Logan芯片,對應Codensity T408單芯片產品和T432 4芯片產品,于2019年發布并量產。同時具備U.2/AIC的形態,來適配兼容不同型號的服務器。U.2形態的編解碼卡,和2.5寸 NVMe SSD的外形一樣,可以直接使用NVMe SSD的卡槽。除外,大部分服務器都具備PCIe卡槽,可以使用AIC形態的編解碼卡。

第二代是Quadra芯片,基于Quadra發布了T1A、T1U和T2A產品,在海外的客戶已有過萬片的部署,這兩代芯片無論是在應用性、穩定性還是在實際業務中都經過了客戶規?;渴鸬尿炞C。

-02-

镕銘微電子VPU增效降“本”實踐

鑒于目前全球經濟形勢處于下行狀態,我會重點介紹“增效降本”部分。

NETINT VPU是面向數據中心和邊緣計算設計的視頻/圖像編解碼處理芯片。那么,通常對于面向數據中心的芯片,在大規模應用部署的時候,需要考慮的幾個重要因素:包括性能、成本、同構性、穩定性。性能就是字面意思,我們需要關注峰值性能、平均性能等。比如人工智能芯片,我們會非常關注他的計算能力(吞吐量):通常關心的是32位浮點計算能力。做推理預測的話也可以用8位整數,我們會關注INT8 的計算能力。顯存大小:當模型越大,或者訓練時的批量越大時,所需要的GPU內存就越多。對于CPU來說,我們關注芯片提供的核數,芯片的頻率。對于VPU 而言,因為主要提供的是視頻/圖像的編解碼處理,所以性能上主要是指芯片可以并發處理的編解碼的路數、協同做視頻處理的AI計算能力、編碼延遲水平(最大延遲/平均延遲)等。

而成本和我們今天討論的降本增效是直接相關的,成本包括TCO(整體擁有成本)、人力成本以及時間成本。

d45810a2-08b4-11ee-962d-dac502259ad0.png

圖中列舉了VPU系列產品性能,T408 吞吐支持8路1080P/30fps,功耗是所有產品中最低的,只有7W,而國產人工智能芯片的功耗大致在70w-100w,對于CPU,高配CPU的功耗大概是240w,對比下來,T408功耗相當低,它支持H.264/H.265 轉碼。T432是4芯片產品,相當于T408 4倍能力,相當于32路。

2022年發布的Quadra系列,其特點是性能相對于T408提升了4倍,單芯片支持32路1080P,T2產品是兩芯片的Quadra,可以支持64路1080P30。Quadra還支持8K/60fps單路的實時轉碼,T2相當于支持兩路的1080P/60fps的實時轉碼。Quadra的功耗是20w,在編解碼標準上,Quadra增加了支持VP9的解碼標準及AV1的編碼標準,海外的應用快于國內,比如META、Google,尤其是前者超過70%的流量走AV1。國內頭部公司目前更多以H.265標準為主。

d4943550-08b4-11ee-962d-dac502259ad0.png

圖中展示的是Quadra關鍵的視頻處理單元,包括編碼模塊、解碼模塊、AI推理引擎、2D圖像處理引擎,以及可用于音頻處理的DSP模塊。芯片集成的AI 推理引擎,與視頻編/解碼器集成于同一芯片上,這可以讓用戶在同一個芯片上實現一些復雜的AI輔助編碼,比如ROI輔助編碼,窄帶高清編碼、在同一芯片上完成AI推理,編解碼所有數據處理流程,這將極大地提升工作效率并顯著減少延遲。

我們是全球首款基于可計算存儲架構的VPU,專門為數據中心和邊緣計算所設計,使用NVMe協議作為主機到硬件加速器的設備接口。NVMe是非易失性內存接口協議,旨在用于基于PCIe的存儲設備,例如SSD(固態磁盤),它還可以擴展到支持可計算型存儲。這樣的優勢包括免驅動,能夠避免許多與服務器的兼容性問題,同時達到更好的延遲和數據交換能力。

除了性能之外,大家還會非常關注編碼的比特效率,Quadra的比特效率在快速檔上能夠達到Fast和Medium之間的水平,在慢速檔能夠達到H.265 Slow的水平。

行業中較好的H.265軟件編碼器,在Super Fast檔位上,開到4個線程,8K分辨率時能夠達到17fps,之后即使線程數增加,其fps也無法隨之提高,且CPU利用率也無法達到滿載利用率。所以要用軟件編碼器實現8K/60fps,需要在轉碼系統上實現比較復雜的并發架構。而利用Quadra硬件編碼器,就能夠實現單芯片8K/60fps實時轉碼,并且單線程達到92%以上的loading,這是VPU在高分辨率視頻處理上的極大優勢。

在畫質處理的對比結果上,相較于Nvidia T4硬件編碼器,在類似檔位lookahead-4,相同的PSNR下能夠節省23-25%的碼率,rdo開到3時,可以進一步將碼率節省提高30-31%。

d4e54940-08b4-11ee-962d-dac502259ad0.png

另一個編解碼的重要指標是延遲,Quadra的延遲對比T408有了更高的提升,1080p的編碼延遲大概是4ms,這是單路延遲,將路數提升到32路,延遲也只增加1-2ms,大概是5-6ms,對于互動型應用如云游戲、RTC等,其QoE及QoS參數極易受延遲影響。圖中可以看到Nvidia T4延遲大概是Quadra的兩倍,H.264大概是三倍,達到15ms左右,X.265大概是20多倍,接近100ms,當然這都是開源的H.264及H.265,但即使對比行業內優化非常好的軟件編碼器,兩者的差距也達到3-4倍。

最大延遲相差更明顯,這是因為軟件編碼器的延遲波動相較于硬件編碼器來說大很多。下圖顯示Quadra的延遲波動基本處于穩定狀態,而延遲穩定對于云游戲等場景非常重要,波動較大時會影響客戶體驗,碼率和延遲不能突然增大,顯然Quadra能夠更好滿足需求。

d559284c-08b4-11ee-962d-dac502259ad0.png

性能和成本息息相關,在計算成本時需要考慮哪些因素?以直播場景為例,直播整個業務流程包括內容生產、內容處理、內容分發及內容播放,編解碼卡位于內容處理環節,除了本身的計算成本,其碼率也會影響到內容分發的CDN成本及計算/存儲成本。

d5cbf444-08b4-11ee-962d-dac502259ad0.png

計算成本時需要考慮密度、折舊及功耗:

①密度:如一臺32核服務器,單個服務器只能跑6路左右的H.265 1080P30FPS轉碼,前提還是行業內較優秀的軟件編碼器。64個thread的服務器可以跑12路,128個thread能夠跑24路。對于T408而言,在一臺機器插上24個U.2卡,能夠實現整機跑200多路,密度是原來的20/30倍。

②折舊成本:如一臺64核(vCPU)服務器加上編解碼卡后,整機成本并不會上升很多,但其密度能夠提升20倍左右,這便降低單路折舊成本。

③功耗成本:功耗會影響機柜成本支出,一個16A機柜能夠容納7臺400-500w的機器,插上卡后,單個機柜能夠容納的機器數量并不會有明顯變化,但其整機可運行的密度能夠提升許多。

除了計算成本外,還有分發成本和存儲成本,影響兩者的因素是比特效率。Quadra H.265在VITS2021SmallSet dataset 基準測試集上, 最高擋的rdo level的配置下相對fast擋位能夠得到8.9%的碼率節省,相對于medium擋位得到4.1%的碼率節省。對于直播冷流來說,使用VPU產品主要是為了降低轉碼的計算成本。但對于熱流而言,使用VPU高畫質模式可以在帶寬和存儲成本上獲得更大的收益。

d64ed12a-08b4-11ee-962d-dac502259ad0.png

成本還包括人力成本,即接入所付出的人力代價,T408和Quadra都基于FFmpeg架構,為用戶提供FFmpeg框架的lib,客戶只需接入libavcodec的API即可整合現有的FFmpeg流程,無需對現有的架構做太大變更。部分用戶會基于NETINT提供的Libxcoder API。在接入上和X 264/X265類似,并提供了極為靈活的編碼控制,場景的定制參數。此外,在規?;\維時,為用戶提供了運維工具及線上debug工具,以便幫助用戶快速排查問題。

-03-

镕銘微電子VPU規?;渴饘嵺`

我們是數據中心大芯片領域出貨量最大的獨角獸公司,接下來為大家介紹大規模部署的相關實踐。

d6e2bfb6-08b4-11ee-962d-dac502259ad0.png

規?;渴鹦枰紤]兩點,第一是同構性,如何將一張編解碼卡與現有的基礎設施進行簡單的兼容,并在現有的算力如現有的服務器基礎上進行算力擴展,從而方便地接到系統簿上進行算力擴展。第二是穩定性,也就是說在進行規?;渴饡r,硬件、固件/軟件層的穩定性如何?

d751b8b2-08b4-11ee-962d-dac502259ad0.png

在兼容性上,我們采用的是NVMe協議,是免驅動的,一般來說,Windows、Linux、Android系統都會自帶穩定高效的NVMe驅動程序,在裝編解碼卡時無需用戶裝驅動,我們基于NVMe 1.3的協議,能夠向下兼容。在系統支持上,我們能夠較好兼容Windows、Linux、Android,U.2產品還支持熱插拔。規?;瘮U容方面,能夠利用現有存儲機型直接插上U.2的Quadra或T408,將一臺只有幾路的服務器擴展為支持200路或300路編解碼卡的服務器。

而傳統驅動需要自動定義其驅動程序,并存在對不同操作系統的兼容問題,尤其是Windows系統的兼容更為困難,在規?;渴饡r,會凸顯穩定性相關的問題,如掉卡,無法識別卡等。我們采用的NVMe接口及驅動能夠極大程度避免此類問題的發生。

d7e6d2a8-08b4-11ee-962d-dac502259ad0.png

關于同構性,我們提供U.2和AIC形態的卡,可以進行選擇而無需配件轉換,U.2和NVMe SSD的形態及協議都一致,能夠復用機型。

此外,我們的功耗非常低,單卡T408是7W,單卡的Quadra U.2是20W,一般情況下插上卡后,一個機柜原來是7個服務器,現在還是7個服務器,不需要改動機架,這樣有利于機器的運維。

圖中右側是Quadra的AIC形態,我們同時了提供服務器整機方案,展臺有7張卡的服務器樣例。

d8741b04-08b4-11ee-962d-dac502259ad0.png

算力擴展能力利用的是NVMe over fabric協議,通過高速的網卡實現服務器之間的高速數據通道,即使服務器和卡不在一臺機器上,也可以實現低延遲高數據帶寬的連接和訪問。

d9978c46-08b4-11ee-962d-dac502259ad0.png

這是規?;涞氐膶嵗?,左圖是在海外的24*U.2,聯合SuperMICRO提供的T408服務器整機。右圖是服務器利舊實例,利舊一般采用T408,其規?;€定性部署已經非常成熟。

da5c1a34-08b4-11ee-962d-dac502259ad0.png

在大規模部署過程中,大家可能會考慮到硬件或固件穩定性,比如接入業務后會不會導致業務有損。

在硬件穩定性上,我們有Spike/Lt-loop/DCpower反復過萬次的穩定性驗證、超負載、過熱保護等穩定性驗證,進行了嚴格的跌落測試,做出掉卡率、壞卡率 SLA承諾以及RMA流程承諾,從而保證問題的閉環。

在固件穩定性上,我們經過了數萬片線上規?;渴痱炞C,對解碼場景能夠達到業界最好的兼容性支持,并且有超7w個test case支持固件升級。

-04-

Quadra硬件智能極速高清產品

dad0724e-08b4-11ee-962d-dac502259ad0.png

大家應該非常熟悉極速高清產品,如阿里的窄帶高清,騰訊的極速高清等,我們的產品也是基于AI技術與圖像處理技術,通過深度學習網絡,對視頻畫面進行感知,優化主觀體驗,追求較好的人眼感受,節省帶寬。

而不同于其他極速高清產品,Quadra基于硬件芯片的AI推理引擎及編碼做無縫配合,從而達到更好的處理效率和規?;瘧玫某杀緝瀯?。

db37a2a2-08b4-11ee-962d-dac502259ad0.png圖中對比了Quadra的處理流程和傳統處理流程

傳統處理流程是在視頻輸入后通過解碼,到CPU進行處理,再給到CPU/GPU做推理運算等前處理,再給CPU做后處理,再給到硬件/軟件做編碼,整個流程實際上非常復雜,延遲無法達到最好的效果,而且成本較高。

Quadra AI Enhance流程都在卡內完成,在卡內解碼,將數據推到AI推理引擎、編碼器再輸出視頻,相較于傳統流程來說簡單了許多,無需主機側參與,利用Quadra本身的AI計算單元實現端到端的視頻質量優化。

dba8d666-08b4-11ee-962d-dac502259ad0.png

dc354754-08b4-11ee-962d-dac502259ad0.png

我們專注于VMAF,提升人眼主觀效果。圖中是處理前后效果對比,可以看到使用極速高清后的VMAF能夠提升14%左右,Quadra還具備極強的場景泛化能力。

dc8b3f74-08b4-11ee-962d-dac502259ad0.png

在成本方面,首先,云服務對極速高清的定價是普通媒體處理的4倍,成本昂貴。通過Quadra以及提供的極速高清開關可以實現25%的轉碼比例,在無額外成本下支持極速高清,并且主觀效果提升明顯,大概達到4K@60FPS、1080P@240FPS及720P@480FPS的極速高清性能。我們希望幫助客戶將歷來成本高企的AI增強視頻產品帶入到規模應用中。
責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    447

    文章

    48292

    瀏覽量

    411486
  • asic
    +關注

    關注

    34

    文章

    1163

    瀏覽量

    119535
  • vpu
    vpu
    +關注

    關注

    0

    文章

    13

    瀏覽量

    11716

原文標題:镕銘微電子VPU 極致降本增效實踐

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    助力電子產業降本增效!華秋亮相第四屆中國模擬半導體大會

    流連?;凇盀?b class='flag-5'>電子產業降本增效”的使命,華秋全面打通產業上、中、下游,形成了電子產業鏈閉環生態,除了PCB 制造,可提供SMT 制造和 PCBA 制造等電子產業服務——旗下的華秋智造P
    發表于 09-23 15:34

    高鎳三元前驅體成套自動化裝備如何‘降本增效

    賽德麗董事長劉俊才將在第十一屆高工鋰電產業峰會上“高鎳三元前驅體成套自動化裝備如何‘降本增效’”主題演講。
    的頭像 發表于 04-18 17:46 ?4816次閱讀

    大尺寸到底能不能成為光伏行業追求“降本增效”有力法寶?

    降本增效”一直是光伏制造的最大的主題。作為光伏系統最核心也是成本占比最大的部分——光伏組件,就成為了光伏制造的核心戰場。
    發表于 05-05 17:40 ?820次閱讀

    中國海裝助力海上風電降本增效

    在大咖對話降本增效·助力海風環節中,中國海裝研究院副院長董曄弘與行業專家進行了探討,同時針對海上風電建設降本問題進行了深入剖析。
    的頭像 發表于 08-05 17:33 ?2427次閱讀

    UWB科技賦能降本增效,實現智能化轉型

    數字化轉型成為了傳統產業突破增長的戰略關鍵。如何用科技手段實現降本增效提質,是科技型創業企業在傳統產業中關注的一個突破點。EHIGH恒高通過UWB高精度定位技術,在位置物聯網整體解決方案上,為公檢法司、工業智能、工業安全和智慧城市四大場景提供智慧化賦能,助力傳統產業實現降本增效
    發表于 05-18 14:22 ?570次閱讀

    NVIDIA China SAE幫助客戶更好的利用GPU實現降本增效

    NVIDIA China SAE (Solution Architect Enterprise)是NVIDIA中國區解決方案架構團隊。我們的目標是為中國企業級客戶提供優質的軟硬件解決方案,幫助客戶更好的利用GPU實現降本增效。
    的頭像 發表于 02-07 11:50 ?1636次閱讀

    APS生產排產幫助紡織企業實現“降本增效

    APS生產排產軟件可通過定義好紡織工藝流程中每個工序的資源與特征約束,包括工序資料、特征、可用機臺產線、物料、時間等,實現工藝的基本資源約束,實現多任務工序的前后聯動,防止生產計劃混亂而導致的庫存積壓問題,減輕庫存壓力,降低企業運營成本,實現降本增效。
    的頭像 發表于 10-29 16:38 ?1834次閱讀
    APS生產排產幫助紡織企業實現“<b class='flag-5'>降本增效</b>”

    循圖降本增效,予力企業上云成本降!降!降!

    原文標題:循圖降本增效,予力企業上云成本降!降!降! 文章出處:【微信公眾號:微軟科技】歡迎添加關注!文章轉載請注明出處。
    的頭像 發表于 11-21 15:50 ?536次閱讀

    金升陽 | 降本增效plus:工業交換機電源方案有講究!

    金升陽 | 降本增效plus:工業交換機電源方案有講究!
    的頭像 發表于 01-05 09:50 ?830次閱讀

    自動駕駛過冬,需要點燃“降本增效”的爐火

    邁過寒冬,即是春天:華為帶來的自動駕駛“降本增效”價值
    的頭像 發表于 02-10 20:47 ?556次閱讀

    數字化領域高質量降本增效戰略—亞馬遜云科技云財務管理(CFM)

    2023剛開年,就有無數企業重啟了降本增效這個命題。隨著越來越多的企業選擇在云上展開數字化轉型,在云上投入的成本究竟產生了多大效用?每一筆開支花在了哪?是否還有成本優化空間? 急著完成降本KPI
    的頭像 發表于 03-28 17:16 ?618次閱讀

    制造業降本增效的關鍵策略與實踐

    在當前競爭激烈的制造業市場,降本增效成為企業追求盈利和持續發展的核心目標。通過有效的管理和創新實踐,制造業企業可以取得降低成本、提高效率的顯著成果。本文將著重探討幾個關鍵策略與實踐,幫助制造業企業
    的頭像 發表于 08-30 21:18 ?802次閱讀
    制造業<b class='flag-5'>降本增效</b>的關鍵策略與實踐

    軟硬件免費提供,360安全云助力企業降本增效

    360全面發力安全托管運營服務,顛覆傳統商業模式,軟硬件均免費,客戶只需要根據需求為服務付費,固定成本收入大幅降低,真正實現降本增效。
    的頭像 發表于 09-01 14:39 ?452次閱讀
    軟硬件免費提供,360安全云助力企業<b class='flag-5'>降本增效</b>

    降本增效時代,鋰電正極材料如何“智造”升級?

    目前來看,行業內數字化、智能化轉型正從觀念、目標、口號過渡至具體方案落地、逐步向鋰電全域工廠滲透。以數字化、智能化技術為媒,助力工廠優化生產模式,真正實現由制造到“智造”,達到極致“降本增效”。
    的頭像 發表于 09-18 15:38 ?536次閱讀

    智能電表使用國產SF25C20晶圓合封MCU助力企業降本增效

    智能電表使用國產SF25C20晶圓合封MCU助力企業降本增效
    的頭像 發表于 04-15 09:24 ?150次閱讀
    智能電表使用國產SF25C20晶圓合封MCU助力企業<b class='flag-5'>降本增效</b>
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>