<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何打造超越英偉達性能的GPU

半導體產業縱橫 ? 來源:半導體產業縱橫 ? 2024-04-08 12:39 ? 次閱讀

計算很容易,而數據移動和存儲卻變得越來越困難。

雖然很多人關注各種計算引擎的浮點和整數處理架構,但研究人員卻花費越來越多的時間研究內存層次結構和互連層次結構。這是因為計算很容易,而數據移動和存儲卻變得越來越困難。

用一些簡單的數字來說明這一點:在過去的二十年中,CPUGPU 的計算能力增加了 90,000 倍,但 DRAM 內存帶寬僅增加了 30 倍,互連帶寬也僅增加了 30 倍。近年來,該行業在某些方面取得了進步,但計算與內存的平衡仍然很遙遠,這意味著在用于大量 AI 和 HPC 工作負載的內存不足的計算引擎上花費過多。

正是考慮到這一點,研究人員考慮了 Eliyan 創建的網絡中物理層 (PHY) 的架構創新,這些創新在本周的 MemCon 2024 會議上以不同且非常有用的方式展現。聯合創始人兼首席執行官 Ramin Farjadrad 花了一些時間向大家展示 NuLink PHY 及其用例如何隨著時間的推移而發展,以及如何使用它們來構建比使用 PHY 更好、更便宜、更強大的計算引擎當前基于硅中介層的封裝技術。

PHY 是一種物理網絡傳輸設備,它將交換芯片、網絡接口或計算引擎上或內部的任何數量的其他類型的接口鏈接到物理介質(銅線、光纖、無線電信號),而物理介質又連接它們相互之間或網絡上。

硅中介層是一種特殊的電路橋,用于將 HBM堆疊式 DRAM 內存連接到計算引擎,例如 GPU 和定制 ASIC,這些引擎通常用于 HPC 和 AI 領域的帶寬敏感應用。有時 HBM 使用也需要高帶寬內存的常規 CPU。

Eliyan 于 2021 年在圣何塞成立,目前擁有 60 名員工。該公司剛剛獲得了 6000 萬美元的第二輪融資,由內存制造商三星Tiger Global Capital 領投 B 輪融資。Eliyan 于 2022 年 11 月在 A 輪融資中籌集了 4000 萬美元,由 Tracker Capital Management 領投,Celesta Capital、英特爾、Marvell 和內存制造商美光科技 (Micron Technology) 出資。

Farjadrad 在互聯網熱潮期間在 Sun Microsystems 和 LSI Logic 擔任設計工程師,曾擔任 Velio Communications(現為 LSI Logic 的一部分)的交換機 ASIC 首席工程師和聯合創始人,并且是聯合創始人和首席技術Aquantia 的官員,該公司為汽車市場生產以太網 PHY。2019 年 9 月,Marvell 收購了 Aquantia,并讓 Farjadrad 負責網絡和汽車 PHY。Marvell 已成為最大的 PHY 制造商之一,在設計這些系統關鍵組件方面與 Broadcom、Alphawave Semi、Nvidia、Intel、Synopsis、Cadence 以及現在的 Eliyan 等公司競爭。

Eliyan 的其他聯合創始人包括 Syrus Ziai,他是工程和運營主管,并曾擔任高通公司 Ikanos 的工程副總裁。多年來,PsiQuantum 和 Nuvia 以及業務和企業發展主管 Patrick Soheili 曾負責 eSilicon 的產品管理和人工智能戰略主管。該公司因在 Apple iPod 音樂播放器中創建 ASIC 以及開發 2.5D ASIC 封裝和 HBM 內存控制器而聞名。當然,eSilicon 于 2019 年底被 Inphi 以 2.13 億美元收購,擴大了其 PHY 能力,2021 年 4 月,Marvell 在 2020 年 10 月以 100 億美元收購 Inphi,完成了這一循環。

PHY 以及 I/O SerDes 和重定時器都有資金。SerDes 與交換機 ASIC 中使用的那些用于將從設備發出的并行數據轉換為通過電線、光纖或空中傳輸的串行數據一樣,是一種特殊的 PHY,并且從某種思維方式來看,SerDes 也是一種特殊的 PHY。隨著帶寬的增加以及可以推送干凈信號的銅線長度的減少,重定時器將越來越多地被使用。

接下來,一起談談 2.5D 封裝。

2.5D 封裝

隨著摩爾定律在晶體管密度方面的增長速度放緩,并且晶體管的成本隨著每一種后續工藝技術的發展而不是下降,我們都已經意識到現代芯片蝕刻工藝的掩模版限制。使用普通極紫外 (EUV) 水浸光刻技術,可以在硅晶圓上蝕刻晶體管的最大尺寸為 26 毫米*33 毫米。

許多人可能沒有意識到,這也是硅中介層尺寸的限制,硅中介層允許小芯片在有機基板頂部相互鏈接,有機基板就像每個計算引擎插槽及其附屬 HBM 內存下方的主板。該硅中介層的尺寸取決于用于創建中間板的技術。中介層采用與芯片相同的光刻工藝制造,但如今使用一些技術,中介層可以達到 2,500 mm 2,而不是像芯片那樣具有858 mm 2的掩模版限制,并使用其他接近 1,900 mm 2 ;據 Farjadrad 稱,計劃將其提高到 3,300 mm 2 。有機基板插座沒有這樣的面積限制。當您談論小芯片的 2.5D 封裝時,這一點很重要。

Farjadrad 向大家介紹了與 Eliyan 的 NuLink PHY 競爭的不同 2.5D 方法的饋送、速度和局限性。

以下是臺積電如何通過硅片晶圓芯片 (CoWoS) 工藝實現 2.5D,該工藝用于創建 Nvidia 和 AMD GPU 及其 HBM 堆棧等:

4e4c39d8-f30b-11ee-a297-92fbcf53809c.png

從技術上講,上圖顯示了臺積電的 CoWoS-R 內插器技術,該技術通常用于將 GPU、CPU 和其他加速器鏈接到 HBM 內存。CoWoS 的硅中介層僅限于大約兩個標線單元,這正是Nvidia 上周剛剛推出的“Blackwell”B100 和 B200 GPU的尺寸。這并非巧合。這已經是英偉達所能做到的最大規模了。

臺積電擁有一種不那么引人注目的 CoWoS-L 技術,該技術制造起來更加復雜,就像其他方法中使用的嵌入式橋一樣。

一種橋接技術稱為帶有嵌入式橋接的晶圓級扇出技術,該技術由芯片封裝商 Amkor Technology 倡導,并有來自 ASE Holdings 的一種名為 FOCoS-B 的變體。以下是這種封裝方法的速度:

4e5e78c8-f30b-11ee-a297-92fbcf53809c.png

高跡線密度意味著您可以以低功耗獲得高芯片間帶寬,但范圍有限,布線能力也有限。

英特爾將硅橋直接放入容納小芯片的有機基板中(減去中介層)的方法與 Eliyan 對 NuLink 所做的類似:

4e797d9e-f30b-11ee-a297-92fbcf53809c.png

然而,EMIB 受到生產周期長、產量低、覆蓋范圍和可布線性有限等問題的困擾。

這樣就剩下了 Eliyan 提出的修改后的 2D MCM 流程 NuLink:

4e9f5852-f30b-11ee-a297-92fbcf53809c.png

Farjadrad說,NuLink是一種PHY,其數據速率約為傳統MCM封裝的10倍,NuLink PHY之間的走線長度可以達到2厘米至3厘米,這比CoWoS和其他2.5D封裝選項支持的0.1毫米走線長度增加了20倍至30倍。正如你所看到的,走線上的額外距離,以及NuLink PHY在這些走線上具有雙向信令的事實,使計算引擎設計變得與眾不同。

在當前的架構中,當你在內存和ASIC之間運行數據包時,數據包數據不是同時雙向的,我們需要自己的特殊協議來維護內存一致性,確保讀取和寫入之間沒有沖突。我們知道當我們制作一個PHY時,我們需要為特定的應用制作一個相關的協議。這是我們最大的區別之一。擁有最好的PHY是一回事,但將其與AI應用的正確專業知識相結合是另一個重要因素,我們知道如何做到這一點。

當 NuLink 于 2022 年 11 月首次推出時,它還沒有這個名字,Eliyan 還沒有提出使用 PHY 創建通用內存接口 (UMI) 的方法。NuLink只是一種實現UCI-Express小芯片互連協議的方法,并支持Farjadrad和他的團隊在幾年前創建的原始Bunch of Wires(BoW)小芯片互連所支持的任何協議,并作為擬議標準捐贈給開放計算項目。以下是 Eliyan 如何將 NuLink 與各種內存和小芯片互連協議進行堆疊:

4eb88ade-f30b-11ee-a297-92fbcf53809c.png

Intel MDFIO 是 Multi-Die Fabric I/O 的縮寫,用于將“Sapphire Rapids”至強 SP 處理器中的四個計算小芯片相互連接;EMIB 用于將這些小芯片鏈接到具有 HBM 的 Sapphire Rapids 的 Max 系列 CPU 變體的 HBM 內存堆棧。OpenHBI 基于 JEDEC HBM3 電氣互連,也是 OCP 標準。我們在這里寫的UCI-Express 是一種時髦的 PCI-Express,帶有 CXL 相干性覆蓋層,旨在成為小芯片的晶粒到晶?;ミB。英偉達(Nvidia)的NVLink現在用于將Blackwell GPU復合體上的小芯片粘合在一起,但該表中缺少英特爾的XeLink,用于“Ponte Vecchio”Max 系列GPU上的GPU小芯片。與UCI-Express不同,NuLink PHY是雙向的,這意味著您可以擁有與UCI-Express一樣多或更多的電線,但走線的帶寬增加了一倍或更多。

如您所見,有一種昂貴的封裝選項,它使用凸塊間距為 40 微米到 50 微米的凸塊,而裸片到芯片的距離僅為 2 毫米左右。PHY 的帶寬密度可能非常高(小芯片上每毫米海灘的帶寬密度為 Tb/秒),并且功率效率因方法而異。延遲也全面低于 4 納秒。

在表格的右邊是互連PHY,它們可以與標準的有機基板封裝一起使用,并使用130微米的凸塊,因此是更便宜的選擇。其中包括 Cadence 的 Ultralink PHY、AMD 的 Infinity Fabric PHY、Alphawave Semi 的 OIF 超短距離 (XSR) PHY 以及 NuLink 版本。

更長的鏈路打開了計算和內存復合體的幾何形狀,并且還消除了ASIC和HBM之間的熱串擾效應。堆疊內存對熱量非常敏感,隨著 GPU 越來越熱,需要冷卻 HBM 才能正常工作。如果你能讓HBM離ASIC更遠,你就可以更快地運行ASIC(Farjadrad估計大約20%),而且溫度更高,因為內存不夠近,無法直接受到ASIC熱量增加的影響。

此外,通過移除 GPU 等設備中的硅中介層或等效物,并轉向有機基板并使用更胖的凸塊和間隔組件,您可以將具有十幾個 HBM 堆棧的雙 ASIC 設備的制造成本從大約 12,000 美元(芯片加封裝良率約為 50%)降低到良率為 87% 的設備(成本約為 6,800 美元)。

再看兩個對比 UCI-Express、BoW 和 UMI 的圖表。

4ed4391e-f30b-11ee-a297-92fbcf53809c.png

正如你所看到的,Eliyan 一直在推動其 PHY 的雙向功能,現在有能力同時進行雙向流量,它稱之為 UMI-SMD。

4ef5ed66-f30b-11ee-a297-92fbcf53809c.png

因此,NuLink PHY(現在被命名為 UMI)比 UCI-Express 更小、更快,你能用它做什么?

首先,您可以構建更大的計算引擎:

4f0dcfbc-f30b-11ee-a297-92fbcf53809c.png

24 個或更多的 HBM 堆棧和 10 到 12 個重構的計算引擎包如何吸引您?這種設備需要四分之一到五分之一的時間來制造,因為它是在標準的有機基材上。在1990年代初,IBM從1989年左右的巔峰開始下滑后,曾經有一句話與IBM掛鉤:你可以找到更好的,但你不能支付更多。

以下是 Eliyan 認為 HBM4 在未來可能會發揮的作用:

4f2f4520-f30b-11ee-a297-92fbcf53809c.png

使用 NuLink UMI PHY 幾乎可以再次將其切成兩半,為您選擇的 XPU 留出更多的邏輯空間?;蛘?,如果你想放棄中介層,制造一個更大的設備,并忍受一個13平方毫米UMI PHY,你也可以構建一個更便宜的設備,并且仍然從每個HBM4堆棧中驅動2 TB/秒。

早在 2022 年 11 月,當 Eliyan 提出其想法時,它就將帶有連接到其 HBM 內存的中介層的 GPU 與移除中介層并將 ASIC 加倍的機器進行了比較(就像 Blackwell 所做的那樣),并將 24 個 HBM 排名與這些 ASIC 小芯片進行了對比。

4f348b8e-f30b-11ee-a297-92fbcf53809c.png

左邊是 Nvidia A100 和 H100 GPU 及其 HBM 內存的架構。中間是一張 Nvidia 圖表,顯示了隨著 AI 應用程序可用的更多 HBM 內存容量和更多 HBM 內存帶寬,性能如何提高。眾所周知,H200 配備 141 GB HBM3E 內存和 4.8 TB/秒帶寬,其工作量是 H100 的 1.6 到 1.9 倍,具有完全相同的 GH100 GPU,但只有 80 GB 的 HBM3 內存,3.35 TB/秒帶寬。

內存不是功耗的很大一部分,GPU 才是,我們迄今為止看到的少量證據表明,Nvidia、AMD 和 Intel 投入該領域的 GPU 都受到 HBM 內存容量和帶寬的限制——并且已經存在了很長時間,因為制造這種堆疊內存的困難。這些公司生產的是 GPU,而不是內存,他們通過提供盡可能少的 HBM 內存來對抗強大的計算量,從而最大限度地提高收入和利潤。它們總是比上一代顯示更多,但 GPU 計算總是比內存容量和帶寬增長得更快。Eliyan 提出的設計可以使計算和內存恢復平衡,并使這些設備更便宜。

也許這對 GPU 制造商來說有點太強大了,所以隨著 UMI 的推出,該公司已經退縮了一點,并展示了如何使用中介層和有機基板以及 NuLink PHY 的混合來制造更大、更平衡的 Blackwell GPU 復合體。

左下方是如何創建一個 Blackwell-Blackwell 超級芯片,該芯片具有一個以 1.8 TB/秒的速度運行的單個 NVLink 端口,將兩個雙小芯片 Blackwell GPU 連接在一起:

4f582742-f30b-11ee-a297-92fbcf53809c.png

使用NuLink UMI方法,如上圖右側所示,有兩個端口在兩個Blackwell GPU之間提供大約12 TB /秒的帶寬 - 略高于Nvidia提供的10 TB /秒NVLink端口,這些端口在B100和B200中將兩個Blackwell芯片壓縮在一起。這是 Eliyan 超級芯片設計的帶寬的 6 倍,而不是 Nvidia B200 超級芯片設計(如果有的話)。如果 Nvidia 想要堅持其 CoWoS 制造工藝,Eliyan 可以在中介層上放置相同的 8 組 HBM3E 內存,但它可以在每個 Blackwell 設備上再放置 8 組 HBM3E,總共 32 組 HBM3E,這將產生 768 GB 的容量和 25 TB/秒的帶寬。

這種UMI方法適用于任何XPU,也適用于任何類型的存儲器,你可以做這樣瘋狂的事情,所有這些都在一個巨大的有機基板上,不需要中介層:

4f6ef684-f30b-11ee-a297-92fbcf53809c.png

任何存儲器、任何共同封裝的光學器件、任何PCI-Express或其他控制器都可以使用NuLink鏈接到任何XPU。至此,插槽真的變成了主板。

對于更大的綜合體,Eliyan 可以構建 NuLink Switch。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • DRAM
    +關注

    關注

    40

    文章

    2206

    瀏覽量

    182201
  • gpu
    gpu
    +關注

    關注

    27

    文章

    4447

    瀏覽量

    126902
  • 內存
    +關注

    關注

    8

    文章

    2780

    瀏覽量

    72855
  • 網絡傳輸
    +關注

    關注

    0

    文章

    131

    瀏覽量

    17217
  • 英偉達
    +關注

    關注

    22

    文章

    3379

    瀏覽量

    87982

原文標題:如何構建比英偉達更好的GPU

文章出處:【微信號:ICViews,微信公眾號:半導體產業縱橫】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    進一步解讀英偉 Blackwell 架構、NVlink及GB200 超級芯片

    計算工作負載、釋放百億億次計算能力和萬億參數人工智能模型的全部潛力提供關鍵基礎。 NVLink釋放數萬億參數AI模型的加速性能,顯著提升大型多GPU系統的可擴展性。每個英偉Black
    發表于 05-13 17:16

    197.再次無理打壓!美國命令英偉對中俄出售高端GPU需要新的許可

    gpu英偉
    小凡
    發布于 :2022年10月04日 12:25:19

    233.國產GPU和國外競爭對手的差距在哪里?#國產gpu#英偉

    gpu英偉
    小凡
    發布于 :2022年10月04日 13:19:50

    267.英偉對中俄出口高端GPU芯片受新限制

    gpu英偉
    小凡
    發布于 :2022年10月04日 15:13:52

    #英偉 #顯卡 英偉全新旗艦顯卡RTX 5090性能暴漲70%

    顯卡英偉
    深圳市浮思特科技有限公司
    發布于 :2023年11月20日 14:19:25

    【NVIDIA社招】英偉上海熱招ASIC驗證工程師

    【NVIDIA社招】英偉上海熱招ASIC驗證工程師一.公司簡介 NVIDIA (英偉?)公司(納斯達克代碼:NVDA)是全球視覺計算技術的行業領袖及
    發表于 11-11 17:38

    AI開發者福音!阿里云推出國內首個基于英偉NGC的GPU優化容器

    摘要: 3月28日,在2018云棲大會·深圳峰會上,阿里云宣布與英偉GPU 云 合作 (NGC),開發者可以在云市場下載NVIDIA GPU 云鏡像和運行NGC 容器,來使用阿里云上
    發表于 04-04 14:39

    英偉發布新一代 GPU 架構圖靈和 GPU 系列 Quadro RTX

    在 8 月 14 日的 SIGGRAPH 2018 大會上,英偉 CEO 黃仁勛正式發布了新一代 GPU 架構 Turing(圖靈),以及一系列基于圖靈架構的 GPU,包括全球首批支
    發表于 08-15 10:59

    英偉GPU慘遭專業礦機碾壓,黃仁勛宣布砍掉加密貨幣業務!

    的加密貨幣業務的下滑原因不能簡單歸結于加密貨幣市場的總體趨勢。 GPU挖礦效率不敵專用挖礦芯片,礦工紛紛流失英偉的加密貨幣業務部門的核心問題是對GPU挖礦的需求下降。由于用于制造顯卡
    發表于 08-24 10:11

    超越英偉Pascal五倍?揭秘英特爾深度學習芯片架構 精選資料推薦

    在被英特爾收購兩年之后,深度學習芯片公司 Nervana 終于準備將代號為「Lake Crest」的架構轉化為實際的產品了。對于英特爾來說,現在入局或許有些遲到,英偉已經占據深度學習芯片市場很長一段時間了,后者有充分的時間通過新...
    發表于 07-26 07:04

    英偉GPU卡多卡互聯NVLink,系統累積的公差,是怎么解決的?是連接器吸收的?

    英偉不斷推出GPU卡,并且實現多卡互聯NVLink,實際整個系統會累積到一個較大的公差,而目前市面上已有的連接器只能吸收較少的公差,這個是怎么做到匹配的呢?
    發表于 03-05 16:17

    英偉DPU的過“芯”之處

    的領域就有超算、自動駕駛和邊緣計算模式。其中,基于英偉GPU的AI運算平臺與ARM的生態系統結合,將不僅能夠強化英偉
    發表于 03-29 14:42

    如何打造超越英偉性能GPU

    構建一個開放和兼容的生態系統也是提升GPU競爭力的關鍵。通過提供全面的開發工具、豐富的學習資源和強大的社區支持,可以吸引更多的開發者和用戶使用和優化GPU,從而不斷推動技術進步和創新。
    的頭像 發表于 04-08 14:15 ?155次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>