<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AMD甩出最強AI芯片 單個GPU跑大模型

jf_GctfwYN7 ? 來源:芯東西 ? 2023-06-20 10:47 ? 次閱讀

專為生成式AI設計的GPU:HBM密度是英偉達H100的2.4倍,帶寬是英偉達H100的1.6倍。

英偉達的頭號勁敵AMD,終于放出了令人期待已久的AI大招。

2014年,蘇姿豐成為AMD CEO時,這家芯片企業正瀕臨生存危機,裁員約1/4,股價徘徊在2美元。隨后在蘇姿豐的掌舵之下,AMD完成了漂亮的轉身,9年來股價飆升近30倍,對英偉達和英特爾兩家頂級芯片巨頭形成了制衡。 隨著生成式AI颶風席卷全球,英偉達GPU被各家大廠爭相搶購,焦點很快轉移到AMD身上——AMD能否生產出足夠強大的AI芯片來打破英偉達近乎壟斷的市場地位,抓住新一波AI浪潮? 今日,AMD交出階段性答卷。

在展示下一代AI芯片MI300X加速器時,蘇姿豐滿面笑容地說:“我愛這顆芯片”。 MI300X是一個純GPU版本,采用AMD CDNA 3技術,使用多達192 GB的HBM3高帶寬內存來加速大型語言模型和生成式AI計算。 AMD主要客戶將在第三季度開始試用MI300X,第四季度開始全面生產。另一種型號Instinct MI300A現在正在向客戶發售。 蘇姿豐說,人工智能是AMD“最大、最具戰略意義的長期增長機會”。 現場,AMD與明星AI獨角獸企業Hugging Face宣布了一項新的合作伙伴關系,為AMD的CPU、GPU和其他AI硬件優化他們的模型。

除了AI芯片外,AMD還推出專為云計算和超大規模用戶設計的全新EPYC服務器處理器,代號為Bergamo,每個插槽最多包含128個內核,并針對各種容器化工作負載進行了優化。 亞馬遜旗下云計算部門AWS、甲骨文云、Meta、微軟Azure的高管均來到現場,分享在其數據中心使用AMD芯片及軟件的感受。

01. 加速生成式AI: 192GB HBM3,單個GPU跑大模型

此前,AMD Instinct GPU已經被許多世界上最快的超級計算機采用。

MI300X加速器是AMD Instinct MI300系列的新成員,提供一個僅有GPU配置的芯片版本。

MI300X及其CDNA架構專為大型語言模型和其他先進AI模型而設計,將12個5nm chiplets封裝在一起,共有1530億晶體管。

這款全新AI芯片舍棄了APU的24個Zen內核和I/O芯片,轉而采用更多的CDNA 3 GPU和更大的192GB HBM3,提供5.2 TB/s的內存帶寬和896GB/s的無限帶寬。

MI300X的HBM密度是英偉達H100的2.4倍,帶寬是英偉達H100的1.6倍,這意味著AMD可以運行比英偉達芯片更大的模型。

AMD演示了在單個MI300X GPU上運行擁有400億個參數的Falcon-40B大型語言模型,讓它寫了一首關于舊金山的詩。

“模型尺寸變得越來越大,你需要多個GPU來運行最新的大型語言模型,”蘇姿豐說,隨著AMD芯片上內存增加,開發者將不需要那么多GPU。

另一款MI300A被蘇姿豐稱作“面向AI和高性能計算的全球首款APU加速器”,將多個CPU、GPU和高帶寬內存封在一起,在13個chiplets上擁有1460億顆晶體管。

MI300A采用5nm和6nm制程、CDNA 3 GPU架構,搭配24個Zen 4核心、128GB HBM3,相比MI250提供了8倍以上的性能和5倍以上的效率。 AMD還公布了一種AMD Infinity架構。該架構將8個 MI300X加速器連接在一個考慮了AI推理和訓練的標準系統中,提供共1.5TB HBM3內存。

據臺媒報道,AMD的Instinct MI300系列以及英偉達的H100/H800系列GPU都在采用臺積電先進的后端3D封裝方法CoWoS,導致臺積電CoWoS產能短缺將持續存在。臺積電目前有能力每月處理大約8000片CoWoS晶圓,其中英偉達和AMD合計占了大約70%到80%。

此外,英偉達近年備受開發者偏愛的一大關鍵護城河是CUDA軟件。AMD 總裁Victor Peng也展示了AMD在開發軟件生態方面所做的努力。 AMD計劃在AI軟件生態系統開發中采用“開放(Open)、成熟(Proven)、就緒(Ready)”的理念。

AMD的ROCm是一套完整的庫和工具,用于優化AI軟件棧。不同于CUDA,這是一個開放的平臺。

AMD還分享了PyTorch與ROCm的合作。新的PyTorch 2.0的速度幾乎是之前版本的兩倍。AMD是PyTorch基金會的創始成員之一。

AMD正在不斷優化ROCm。Victor Peng說:“雖然這是一段旅程,但我們在構建可與模型、庫、框架和工具的開放生態系統協同工作的強大軟件棧方面取得了真正的巨大進步?!?/p>

02. 云原生處理器Bergamo: 128核,256個線程,最高vCPU密度

再來看下AMD的數據中心CPU。 蘇姿豐首先分享了AMD EPYC處理器的進展,特別是在全球范圍內可用的云計算實例方面。

她強調說,AMD第四代EPYC Genoa處理器在云計算工作負載方面的性能是英特爾競品的1.8倍,在企業工作負載方面的性能提高到1.9倍。

絕大多數AI都在CPU上運行,AMD稱,與英特爾至強8490H相比,第四代EPYC在性能上遙遙領先,性能優勢高出1.9倍。

蘇姿豐說,云原生處理器以吞吐量為導向,需要最高的性能、可擴展性、計算密度和能效。

新發布的Bergamo,便是云原生處理器市場的入口。

該芯片有820億顆晶體管,提供了最高的vCPU密度。

在大散熱器下,有一個表面看起來非常像以前的EPYC的芯片,跟與Rome或Milan一樣有中央I/O芯片和8個核心復合芯片(CCD)。

Bergamo的每個插槽有多達128個核心、256個線程,分布在8個CCD上,每個CCD的核心數量是Genoa 16個核心的兩倍,采用比標準Zen 4內核提供更高密度的全新Zen 4c核心設計,并支持一致的x86 ISA。

“Zen 4c針對性能和功耗的最佳平衡點進行了優化,這為我們提供了更好的密度和能效,”蘇姿豐在演講中談道,“結果設計面積縮小了35%,每瓦性能顯著提高?!?/p>

Bergamo現在正在向AMD的云客戶發貨。AMD還分享了第四代EPYC 9754與英特爾至強8490H的性能、密度和能效和對比:

除了Bergamo的新核心和Chiplet架構之外,該處理器與Genoa有很多共同之處,包括支持12通道DDR5內存、最新PCIe 5.0、單插槽或雙插槽配置等等。 不過,多核心不再只是AMD處理器獨有的特色。

不久之前,數據中心處理器新起之秀Ampere Computing剛推出擁有多達192個單線程Ampere核心的Ampere One系列處理器。

英特爾也計劃在2024年初推出內核優化的至強處理器Sierra Forest,將內置144個高效能核心。 AMD還展示了其最新的緩存堆疊X芯片,代號為Genoa-X,現已上市。

該芯片針對高性能計算工作負載,包括計算流體動力學、電子設計自動化、有限元分析、地震層析成像及其他帶寬敏感型工作負載,這些工作負載受益于大量共享緩存。

Genoa-X CPU基于AMD的標準Genoa平臺,采用AMD 3D V-Cache技術,通過在每個CCD上垂直堆疊SRAM模塊來提高可用的L3緩存。

該芯片可提供多達96個內核和總計1.1GB的L3高速緩存,每個CCD上堆疊了一個64MB SRAM塊。 據AMD披露的數據,在各種計算流體動力學和有限元分析工作負載方面,與英特爾最高規格的60核Sapphire Rapids至強相比,Genoa-X緩存提升的性能提高到2.2倍2.9倍。

03. 即將推出全新DPU

最后,AMD簡要介紹了其網絡基礎設施。 去年AMD以19億美元收購Pensando,進入DPU賽道。AMD解釋了如何使用其DPU來減少數據中心的網絡開銷。

AMD將其P4 DPU架構稱作“世界上最智能的DPU”,并稱其Pensando SmartNIC是新數據中心架構不可或缺的一部分。

AMD還在現場展示了與Aruba Networks共同開發的智能交換機。AMD計劃將P4 DPU卸載集成到網絡交換機本身,從而提供機架級服務。

AMD最新的DPU旨在從CPU卸載網絡、安全和虛擬化任務,與當前一代P4 DPU相比將提供更高的性能和能效。 其DPU已得到微軟、IBM云、甲骨文云等許多主要云提供商以及VMware虛擬機管理程序等軟件套件的支持。 AMD打算在今年晚些時候推出Giglio DPU之前擴大兼容軟件列表,推出“芯片軟件開發工具包”,以便用戶更輕松地在其DPU上部署工作負載。

04. 結語:到2027年,數據中心AI加速器 市場規模將超過1500億美元

全球數據中心GPU和CPU的頭部企業英偉達和英特爾均在強調其加速AI的實力。作為這兩條賽道“萬年老二”的AMD,也在競相滿足對AI計算日益增長的需求,并通過推出適應最新需求的數據中心GPU來挑戰英偉達在新興市場的主導地位。

生成式AI和大型語言模型的應用熱潮正在將數據中心推向極限。截至目前,英偉達在提供處理這些工作負載所需的技術方面具有優勢。根據市場調研機構New Street Research的數據,英偉達占據了可用于機器學習的GPU市場的95%。 “我們仍處于AI生命周期的非常、非常早的階段,”蘇姿豐預測,到2027年,數據中心AI加速器總潛在市場規模將增長5倍,從今年的300億美元左右以超過50%的復合年增長率增長到2027年的1500億美元以上。

AMD并未透露兩款MI300新芯片的價格,但這可能會給英偉達帶來一定價格壓力,之前H100價格據傳高達30000美元乃至更多。




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • amd
    amd
    +關注

    關注

    25

    文章

    5264

    瀏覽量

    132890
  • 加速器
    +關注

    關注

    2

    文章

    766

    瀏覽量

    36747
  • 晶體管
    +關注

    關注

    77

    文章

    9157

    瀏覽量

    135932
  • 英偉達
    +關注

    關注

    22

    文章

    3480

    瀏覽量

    88863
  • AI芯片
    +關注

    關注

    17

    文章

    1734

    瀏覽量

    34514

原文標題:1530億顆晶體管!AMD甩出最強AI芯片,單個GPU跑大模型

文章出處:【微信號:IC修真院,微信公眾號:IC修真院】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    新手小白怎么學GPU云服務器深度學習?

    新手小白想用GPU云服務器深度學習應該怎么做? 用個人主機通常pytorch可以但是LexNet,AlexNet可能就直接就跑不動,如何實現更經濟便捷的實現GPU云服務器深度學習?
    發表于 06-11 17:09

    國產GPUAI模型領域的應用案例一覽

    電子發燒友網報道(文/李彎彎)近一年多時間,隨著大模型的發展,GPUAI領域的重要性再次凸顯。雖然相比英偉達等國際大廠,國產GPU起步較晚、聲勢較小。不過近幾年,國內不少
    的頭像 發表于 04-01 09:28 ?2823次閱讀
    國產<b class='flag-5'>GPU</b>在<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>領域的應用案例一覽

    FPGA在深度學習應用中或將取代GPU

    現場可編程門陣列 (FPGA) 解決了 GPU 在運行深度學習模型時面臨的許多問題 在過去的十年里,人工智能的再一次興起使顯卡行業受益匪淺。英偉達 (Nvidia) 和 AMD 等公司的股價也大幅
    發表于 03-21 15:19

    海信發布電視行業最強中文大模型,開啟電視AI新時代

    3月15日,“海信視像 AI美好生活”全場景顯示新品發布會上,海信正式發布了自研星海大模型,這也是目前電視行業最強中文大模型。
    的頭像 發表于 03-18 14:24 ?194次閱讀

    英偉達和AMD發布適用于臺式電腦的新型AI芯片

    英偉達和AMD這兩家GPU巨頭近日宣布,他們將發布適用于臺式電腦的新型AI芯片。
    的頭像 發表于 01-10 13:59 ?536次閱讀

    AI模型怎么解決芯片過剩?

    AI模型
    電子發燒友網官方
    發布于 :2024年01月02日 15:42:05

    AMD最強AI芯片發布,微軟、Meta等表示將購買

    目前,為進行人工智能(ai)的大規模模型訓練,需要很多高性能ai芯片,但nvidia h100、a100等價格昂貴,而且供不應求,因此對技術大企業來說,負擔不小的費用。
    的頭像 發表于 12-07 14:01 ?339次閱讀

    解讀AMD的“分布式幾何”新專利(GPU的完全小芯片方法)

    AMD 的專利詳細介紹了一種方法,即放棄中央處理器,用多個小芯片取代單個硅塊,每個小芯片處理自己的任務。渲染指令以稱為命令列表的長序列發送到 GPU
    發表于 12-06 10:44 ?317次閱讀
    解讀<b class='flag-5'>AMD</b>的“分布式幾何”新專利(<b class='flag-5'>GPU</b>的完全小<b class='flag-5'>芯片</b>方法)

    #芯片 #AI 世界最強AI芯片H200性能大揭秘!

    芯片AI
    深圳市浮思特科技有限公司
    發布于 :2023年11月15日 15:54:37

    【KV260視覺入門套件試用體驗】Vitis AI 構建開發環境,并使用inspector檢查模型

    Vitis AI 的所有工具和庫,而不需要在本地安裝任何依賴。CPU版本的Vitis AI docker 可以在沒有 GPU 的機器上運行,但是模型優化的速度會比
    發表于 10-14 15:34

    盤古ai模型用的什么芯片?

    盤古ai模型用的什么芯片? 盤古AI模型是一種基于深度學習算法的人工智能技術,它是由中國互聯網公司暴風集團投入上億元研發的一項人工智能技
    的頭像 發表于 08-31 09:01 ?2732次閱讀

    ai芯片gpu芯片有什么區別?

    ai芯片gpu芯片有什么區別? AI芯片GPU
    的頭像 發表于 08-08 18:02 ?4558次閱讀

    AI芯片GPU芯片的區別

    人工智能(AI芯片和圖形處理單元(GPU芯片都是現代計算機中使用的重要組件。雖然兩者可以用于處理大規模數據,但它們的設計目的是不同的。在本文中,我們將深入探討兩種
    的頭像 發表于 08-07 17:42 ?4887次閱讀

    最強科普!深度解析華為云盤古大模型

    搭檔完成復雜任務 預測臺風路徑降低災害損失 幫助縮短藥物研發周期 …… 此次發布有諸多新升級 更為客戶提供了“開箱即用”的模型服務 簡直就是一個AI大禮包! 一支視頻為你深度解析盤古大模型硬實力! 你想了解的都在這兒 原文標題:
    的頭像 發表于 07-14 15:20 ?1451次閱讀

    國產AI芯片進展幾何?國產AI芯片之爭才剛剛開始

    近日,芯片巨頭AMD推出全新AI GPU MI300系列芯片,與英偉達在AI 算力市場展開競爭。
    的頭像 發表于 07-04 09:45 ?1783次閱讀
    國產<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>進展幾何?國產<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>之爭才剛剛開始
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>