電子發燒友網報道(文/周凱揚)不久前,Meta宣布將花費150億美元,購置60多萬塊GPU,而這還沒算上系統成本。就當大家以為Meta打算All In GPU之際,Meta放出了下一代MTIA AI芯片,MTIA v2。
基于5nm打造,性能三倍以上
相較上一代MTIA v1,新的MTIA v2的工藝從臺積電的7nm換成了臺積電5nm,芯片主頻也從800MHz提升至1.35GHz。得益于芯片工藝的改進,即便晶體管數量大幅增加,其芯片面積僅增加了12%。MTIA v2芯片 / Meta
MTIA v2的性能提升主要體現在算力上,根據Meta給出的數據其GEMM算力達到354TFLOPS/s(INT8),SIMD算力達到11.06TFLOPS/s(INT8),相較上一代均提升了3倍以上。在接口上,MTIA v2也從8xPCIe 4.0升級至8x PCIe 5.0,帶寬翻倍。
算力的提升除了歸功于工藝的升級外,很可能也不乏內核的升級。結合晶心科技和Meta合作開發數據中心AI處理器的新聞來看,MTIA v1很有可能采用了晶心科技打造的首個商用RISC-V矢量處理器內核NX27V,而MTIA v2則很可能用到了最新的AX45MPV內核,其三倍以上的性能提升幅度也符合MTIA的算力提升幅度,不過這也只是猜想而已。值得一提的是,與同樣在近期發布的英特爾Gaudi 3不一樣,MTIA v2在內存配置上依舊沒有選擇HBM,片上內存只有256MB,片外內存選擇了LPDDR5。雖然其片上內存擁有2.7TB/s的帶寬,但也注定了MTIA v2很難用于高效率的大模型應用。在硬件堆料下,MTIA v2的功耗也已經來到了90W,相比MTIA v1的25有著比較大幅度的增加。不過對比H100的能耗比,MTIA v2依然有著比較大的優勢。但這也就意味著上一代的服務器方案可能已經不再適用于新的方案,Meta因此為新加速器打造了全新的機柜系統。該系統單個機架由三個底盤構成,每個底盤塞進了12塊板卡,每個板卡集成了2個加速器,也就意味著單個機架共有72個MTIA v2加速器,單機柜至少需要6000W的電源供應。如果想要實現多機架拓展的話,也可以選擇加入RDMA NIC。Meta表示實現這樣的成績,除了依靠硬件本身的性能提升之外,也離不開他們在優化內核、編譯器、運行時上的努力。隨著后續開發生態進一步成熟,對模型針對性優化的時間會進一步減少,而且未來還有不少空間可以繼續優化芯片的效率。軟件棧引入新的編譯器
隨著新硬件的發布,Meta也加大了他們在軟件棧上的開發力度。作為PyTorch的開發者,MTIA的軟件棧從設計之初就做到了PyTorch 2.0的完全集成,也支持TorchDynamo和TorchInductor等新特性。但與此同時,為了簡化應用開發者的工作,為MTIA v1開發的代碼,也能向下兼容新的MTIA v2硬件。而且Meta表示,因為已經將全部的軟件棧集成在新的MTIA芯片內,在發布之際,他們已經在自己的服務器上用MTIA v2跑了一段時間了。正因為有這種兼容的軟件棧方案,Meta可在九個月內就能讓商用模型運行在16個地區的服務器上。為了為全新的MTIA硬件生成更高性能的代碼,Meta還打造了一套新的Triton-MTIA編譯器。Triton是由OpenAI開發的一套開源語言和編譯器,用于編寫高效的ML計算內核。Triton極大地提高了開發者編寫GPU代碼的速度,但Meta發現Triton也很適合用于MTIA這樣非GPU的硬件架構。寫在最后
從MTIA v2的性能來看,該加速器應該不會替代其購置的大量GPU用在LLM模型上,而是追求算力、內存帶寬和內存容量的平衡,用于排名和推薦的大模型上。這樣一來大容量的SRAM還是用在GPU上,而Meta最大收入來源的廣告業務,可以靠MTIA之類的加速器減少成本。Meta除了投資定制AI芯片和下一代GPU這樣的計算芯片外,Meta也強調他們會繼續投資內存帶寬、網絡、容量相關的下一代硬件系統。不僅如此,Meta也在探索增加MTIA的應用范圍,包括未來可能支持GenAI的負載。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
Meta
+關注
關注
0文章
151瀏覽量
11178 -
AI芯片
+關注
關注
17文章
1632瀏覽量
34339
發布評論請先 登錄
相關推薦
AMD發布第二代Versal自適應SoC,AI嵌入式領域再提速
AMD表示,第二代Versal系列自適應SoC搭載全新的AI引擎,相較上一代Versal AI Edge系列,每瓦TOPS功率可實現最多3倍的性能提
AMD推出第二代Versal器件,為AI驅動型嵌入式系統提供端到端加速
Versal AI Edge 系列和第二代 Versal Prime 系列自適應 SoC,其將預處理、AI 推理與后處理集成于單器件中,能夠為 AI 驅動型嵌入式系統提供端到端加速。
AMD 以全新第二代 Versal 系列器件擴展領先自適應 SoC 產品組合,為 AI 驅動型嵌入式系統提供端到端加速
第二代 Versal 系列產品組合中首批器件借助下一代 AI 引擎將每瓦 TOPS 提升至高 3 倍,同時將基于 CPU 的標量算力較之第一代提升至高 10 倍 — ? 斯巴魯位列首批
發表于 04-09 16:50
?503次閱讀
瑞芯微第二代8nm高性能AIOT平臺 RK3576 詳細介紹
RK3576處理器
RK3576瑞芯微第二代8nm高性能AIOT平臺,它集成了獨立的6TOPS(Tera Operations Per Second,每秒萬億次操作)NPU(神經網絡處理單元),用于
發表于 03-12 13:45
中科馭數自研第二代DPU芯片K2獲得行業認可
近日,中科馭數自研第二代DPU芯片K2在眾多云生態創新應用技術產品中脫穎而出,成功入選由中國云產業聯盟暨中關村云計算產業聯盟發布的“2023年中國云生態創新應用技術產品”。這一殊榮既是對中科馭數第二代DPU
高通第二代驍龍XR2+平臺支持4.3K單眼分辨率
高通技術公司近日宣布推出全新第二代驍龍?XR2+平臺,這一創新平臺旨在為MR和VR設備帶來更出色的性能和體驗。第二代驍龍XR2+平臺具備強大的硬件配置,支持高達4.3K的單眼分辨率和12路及以
高通發布第二代驍龍XR2+平臺,開辟MR和VR新體驗
近日,高通技術公司再次引領行業前沿,推出了全新的第二代驍龍XR2+平臺。這一平臺的性能顯著提升,其中GPU頻率提升了15%,CPU頻率提升了
白皮書 | 第二代ClearClock?三次泛音晶體振蕩器
白皮書
第二代ClearClock?三次泛音晶體振蕩器
在這份全新的白皮書中,我們討論了最新一代超低抖動三次泛音晶體振蕩器的特點、優勢、性能
發表于 09-13 09:51
iPad Air 6將搭載采用了第二代5納米技術的M2芯片,CPU性能提升18%
,iPad Air 6將會搭載蘋果M2芯片,這將是蘋果史上性能最強悍的iPad Air系列產品。 M2芯片使用第二代 5 納米技術,M2芯片
中科融合發布第二代3D成像平臺
處理速度大幅提升,成像速度是第一代的1.6 倍,內存開銷較上一代平臺降低了75%,計算平臺I/O吞吐訪問性能達到Jetson NX平臺的1.4倍?;?b class='flag-5'>以上關鍵性能提升,
發表于 08-25 11:42
?236次閱讀
炬芯科技第二代智能手表芯片助力實現更非凡的智能可穿戴體驗
2023年7月,炬芯科技宣布全新第二代智能手表芯片正式發布。自2021年底炬芯科技推出第一代的智能手表芯片開始便快速獲得了市場廣泛認可和品牌客戶的普遍好評。隨著技術的不斷創新和突破,為了更加
炬芯科技發布全新第二代智能手表芯片,引領腕上新趨勢!
2023年7月,炬芯科技宣布全新第二代智能手表芯片正式發布。自2021年底炬芯科技推出第一代的智能手表芯片開始便快速獲得了市場廣泛認可和品牌客戶的普遍好評。隨著技術的不斷創新和突破,為了更加
發表于 07-24 17:16
?857次閱讀
今日看點丨高通第二代驍龍4芯片發布,傳由臺積電轉單三星代工;華為明年將發布端到端 5.5G 商用產品
轉向三星4納米工藝代工。報道指出,第二代驍龍4是該系列首款以4納米制程工藝打造的處理器,高通產品管理總監Matthew Lopatka表示,第二代芯片采用了Kryo CPU,可延長電池續航,提
發表于 06-29 10:54
?1134次閱讀
國產第二代“香山”RISC-V 開源處理器計劃 6 月流片:基于中芯國際 14nm 工藝,性能超 Arm A76
是南湖,第三代架構是昆明湖。香山開源社區稱,第一代“雁棲湖”架構已經成功流片,實測達到預期性能,第二代“南湖”架構正在持續迭代優化中。去年 8 月 24 日,中科院計算所、北京開源
發表于 06-05 11:51
性能超ARM A76!國產第二代“香山”RISC-V開源處理器最快6月流片
據開芯院首席科學家包云崗介紹,第二代“香山”于2022年6月啟動工程優化,同年9月研制完畢,計劃2023年6月流片,性能超過2018年ARM發布的Cortex-A76,主頻2GHz@14nm
發表于 05-28 08:41
評論