<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

淺析“大芯片”的挑戰、模式和架構

旺材芯片 ? 來源:半導體行業觀察 ? 2024-01-24 11:30 ? 次閱讀

1、摘要

在深度神經網絡 (DNN) 和科學計算日益普及的推動下,云和邊緣平臺的利用率正在快速增長[1],[2]。進行人工智能訓練所需的算力呈指數級增長,每 3.4 個月翻一番。自 2012 年以來,該指標已增加了30多萬倍。然而,這些算法的計算強度相當大,仍然是其實際部署的重大障礙。因此,人們越來越需要提高芯片性能以滿足更高計算能力的需求。芯片的性能與以下三個因素有關:

f9af14fe-b9cb-11ee-8b88-92fbcf53809c.png

D代表晶體管密度,一般與制造工藝和器件機制有關。A代表芯片面積,與集成規模有關。E代表架構因素,反映每個晶體管的性能,通常由芯片的結構決定。我們將上述公式稱為芯片性能的DAE模型。因此,當使用相同的芯片架構時,改善晶體管尺寸和面積是增強芯片性能的兩個關鍵方法。

集成電路 (IC) 的制造工藝在歷史上一直與摩爾定律同步發展。目前,我們已經達到5nm工藝的量產階段,3nm工藝正在穩步推進。工藝節點的每一次突破都帶來了性能的提高和功耗的降低。然而,隨著摩爾定律[2]和登納德縮放比例[3]接近極限,增加集成到單個芯片中的晶體管數量變得越來越具有挑戰性且成本高昂[4]。

隨著晶體管尺寸的縮小變得越來越困難,集成更多功能單元的一種可行方法是增加芯片面積。然而,擴大單芯片面積時可能出現的一個重要障礙就是我們所說的“面積墻”。面積墻是指由于制造技術和成本的限制引申出的對單個芯片的面積限制。芯片的制造依賴于光刻,芯片面積受到光刻孔徑的限制[5]。由于掩膜版的尺寸和光學器件的物理特性,單個芯片最大曝光區面積限制為858mm(26mm * 33mm)。要增加最大曝光區面積,光刻系統必須取得重大進展,而這從成本角度來看是一項挑戰。此外,成本是增加芯片面積的另一個挑戰。在更先進的工藝節點中,單位芯片面積的成本會增加[6]。最后,對于大面積芯片來說,良率也是一個重大挑戰,這將導致制造缺陷的發生頻率更高,導致晶圓良率下降[7]。

為了設計一種突破面積墻限制的芯片,我們提出了一種新穎的芯片形式,稱為大芯片。“大芯片”一詞是指面積大于目前最先進光刻機最大曝光區面積的芯片。這種類型的芯片通常還具有大量晶體管,并使用半導體制造技術來實現。大芯片有兩個特點:首先,大芯片面積大,打破了步進式光刻機的面積限制,將大量晶體管集成到一個芯片中,可以超過當前制造技術下單片芯片上集成的晶體管數量。其次,大芯片由多個功能裸芯組成,并使用幾種新興的半導體制造技術將預制裸芯集成到大芯片中。Cerebras利用平面制造技術實現晶圓級大芯片,面積達46,225毫米。芯粒集成[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]也是一項有前途的技術,它將多個芯粒組合在單個封裝內的中介層或基板上。AMD和Nvidia分別于2019年[12]和2020年[17]推出了基于多芯粒架構的高性能處理器設計。由于芯片面積較大,芯片性能得以大幅提升。

盡管構建大芯片受到廣泛關注,但該領域的綜合分析論文卻稀缺且迫切需要。本文對大芯片進行了詳細分析。首先,我們詳細分析了面積墻,考慮到物理限制、良率和成本。在此分析的基礎上,我們進一步介紹了可用于實現大芯片的潛在技術。其次,我們提出了一個性能模型來指導大芯片的設計和評估。最后,我們給出了基于芯粒技術構建大芯片的架構實現方式以及未來的發展趨勢。

2. 挑戰:芯片的面積墻

高性能計算系統需要更多的計算能力來支持許多領域的計算密集型工作。更多的計算能力需要更多的集成晶體管,這可以通過更大的芯片面積和更密集的硅結構來實現。然而,由于晶圓成本、良率和更復雜的設計規則問題,硅結構密度增長最近已經放緩。因此,實現更高計算能力的最佳方法是集成更大的芯片。然而,傳統的單片集成存在面積墻問題,阻礙了芯片面積的增長。幸運的是,多芯片集成技術可以顯著削弱面積墻的影響。本節我們將詳細分析造成面積瓶頸的三個原因。

2.1

光刻曝光區面積限制

在現代光刻系統[5]、[18]、[19]中,掩膜版在傾斜入射光下曝光,來自掩膜版的攜帶信息的反射光經過一組光學器件,最終落在晶圓表面,如圖1所示。晶圓上的曝光圖像實際上是掩膜版上圖像的縮小,給定放大倍數 MAG,晶圓上曝光的圖像尺寸為掩膜版上尺寸的1/MAG。衡量表面上可以收集多少光的重要指標稱為數值孔徑,其定義為光錐張角一半的正弦值。掩膜版和晶圓表面的數值孔徑為 , ,其中如圖 1 所示。這兩個數值孔徑的關系式為[5]:

f9b9dea2-b9cb-11ee-8b88-92fbcf53809c.png

有兩種選擇可以增加晶圓曝光區面積,設計更小的光學器件MAG,并增加掩膜版面積。然而,這兩種方案在目前的行業中都很難實現。

f9c466a6-b9cb-11ee-8b88-92fbcf53809c.png

圖 1. 光刻系統演示。

根據瑞利準則[20],更先進的工藝節點要求增加 。這使得光學器件無法設計成較小的 MAG,因為根據公式2, 會隨著增大而增大。因此, 會變大,并迫使目標處的主光線角(CRAO,如圖 1 所示)變大,這樣入射光錐和反射光錐就不會重疊。然而,較大的 CRAO 會降低圖像質量和掩膜效率。因此,目前大多數先進的光刻系統都采用 MAG = 4 的光學器件,而更先進的工藝節點可能需要更大的 MAG。

假設光罩的寬度和長度分別為和 ,則曝光尺寸可用下式表示:

f9d07978-b9cb-11ee-8b88-92fbcf53809c.png

目前市場上最大的光罩尺寸為 6",剔除制造余量后的尺寸為 104mm×132mm。由于目前先進的光刻系統的 MAG = 4,因此目前的最大曝光尺寸為 26mm×33mm=858 mm2。需要強調的是,我們的上述分析主要針對硅基芯片制造,并沒有考慮 TFT(薄膜晶體管)制造等工藝。

2.2

良率限制

一直以來,工業界都在尋求一個精確的模型來預測芯片的良率以指導生產[21]。此外,良率模型對于探索可能的集成水平以指導芯片設計也很重要。人們提出了幾種在不同假設條件下預測良品率的模型。泊松良率模型假定缺陷分布均勻且隨機,這往往會低估大型芯片的良率。Seeds模型引入了指數分布模擬芯片之間的缺陷密度變化。負二項式模型利用缺陷密度和缺陷聚類現象來確定良率,這種模型被廣泛使用。下式是預測單片芯片良率的負二項模型,其中 是取決于工藝節點的缺陷密度, 是缺陷聚類參數[21]:

f9d90200-b9cb-11ee-8b88-92fbcf53809c.png

在此基礎上,我們提出了通用多芯片系統的良率模型。一般的多芯粒系統可抽象為幾個部分,每個部分 又分為 個相同的芯粒。中每個芯粒的面積為 ,其中 是 的總關鍵面積(關鍵一詞是指排除芯片間模塊),是芯片到芯片面積與關鍵面積之比。由具有缺陷密度和聚類參數 、的加工節點制造,其良率可按單片情況預測。我們建議,多芯粒系統的良率由所有部件的最小良率決定。注意,集成過程也會引入潛在的故障,因此集成良率也應計入系統良率。假設鍵合芯粒的成功率為 ,為芯片 i(由 組成)的良率,定義為芯粒 i 的實際良率與目標良率之比:

f9e0d53e-b9cb-11ee-8b88-92fbcf53809c.png

單片集成在實現較大的芯片面積時,尤其是在工藝節點先進的情況下,存在良率低的問題。我們認為,在相同的良率目標下,多芯粒集成能比單片集成實現更大的芯片總面積。在此,我們考慮了只有一個部件 P 的 K-chiplet 系統,并將其與單片芯片進行比較。K-chiplet 系統良率的計算公式為

f9e86f24-b9cb-11ee-8b88-92fbcf53809c.jpg

通過良率模型的反函數,我們可以分別建立單片系統和 K-chiplet 系統所能達到的最大關鍵面積模型如下:

f9ecc3e4-b9cb-11ee-8b88-92fbcf53809c.png

由于多芯粒系統的良率肯定小于鍵合良率,因此 Y 存在一個內部約束條件,即Y

圖 2 顯示了在給定良率限制(橫軸)下,使用單片和芯粒集成技術可實現的最大關鍵面積(縱軸)。在相同的成品率限制下,使用更多芯粒進行集成通常能獲得更大的關鍵面積。此外,多芯粒系統還能輕松突破單片芯片的物理面積限制(虛線標記)。

f9fb0c6a-b9cb-11ee-8b88-92fbcf53809c.png

圖 2. 在良率限制下可制造的最大關鍵面積(平方毫米)。左圖和右圖分別顯示 5 納米和 14 納米工藝。水平虛線表示 858 平方毫米的物理單片芯片面積上限。

2.3

成本限制

制造成本可根據集成系統各部分的良率和原料成本估算。對于單片芯片,成本可以簡單地用裸片良率和裸片成本估算,其中良率用于攤銷失效裸片的成本。對于多芯粒系統,如文獻[6]、[7]、[22]、[23]所述,成本計入多個組成部件和集成過程。我們對單片系統和多芯粒系統的制造成本建模如下:

fa00724a-b9cb-11ee-8b88-92fbcf53809c.png

其中Gdie、Gint、分別為單位面積芯片和插層的原始成本。是將單位面積芯片鍵合到集成電路上的成本。

根據這一成本模型,我們再次比較單片系統和 K-chiplet系統的成本效率,如圖 2 所示。我們將晶體管數量建模為晶體管密度乘以關鍵面積,并在圖 3 中繪制出每個晶體管的成本。我們還在圖 4 中繪制了系統成本的對比圖。

fa088714-b9cb-11ee-8b88-92fbcf53809c.png

圖 3. 采用 5 納米(左)和 14 納米(右)工藝節點的不同關鍵面積(平方毫米)時每個晶體管的成本。成本已歸一化為圖中最小單片芯片的成本。

fa138be6-b9cb-11ee-8b88-92fbcf53809c.png

圖 4. 采用 5 納米(左)和 14 納米(右)工藝節點的不同關鍵面積(平方毫米)時的系統成本(任意單位)。

對于成熟的工藝節點(見圖 3 和圖 4 中的 14 納米),單片系統的單位晶體管成本和系統成本均低于多芯粒系統。然而,對于新節點和先進節點,多芯粒系統在關鍵面積較大的情況下成本更低。請注意,在圖中,我們沒有顯示超過 858 平方毫米(虛線)的關鍵面積,因為它只能通過芯粒集成來實現。同時,芯粒越多的系統成本曲線增長越平滑,這表明在實現足夠大的關鍵面積時,芯粒越多的系統成本優勢越明顯。

3. 技術:打破面積墻

大芯片由超過萬億個晶體管和數千平方毫米的面積(超過一個掩膜版)組成,目前可采用兩種方法實現。第一種方法是芯粒集成,即在中介層或基板上將多個芯粒組合在單個封裝中。2018 年,AMD 提出了 EPYC 處理器,利用 MCM(多芯片模塊)技術集成了四個相同的芯粒[24]。華為也提出了基于芯片集成的服務器 SoC 系列[25]。通過臺積電 CoWoS 技術,鯤鵬 920 SoC 系列集成了多個不同功能的芯粒。第二種方法是晶圓級集成(WSI),即用整個硅晶圓構建超大型集成電路。1980 年,Trilogy System 為 IBM 大型機進行了晶圓級集成的早期嘗試[26]。這種集成將芯片間的通信放在晶圓上,從而降低了芯片間通信的延遲和功耗。

然而,良率和光刻問題導致 Trilogy System 的晶圓級集成失敗[26]。Cerebras System 于 2019 年實現了晶圓級引擎-1(WSE-1)[27],并于 2021 年實現了晶圓級引擎-2(WSE-2)[28]。這兩種方法都能大大提高芯片的性能。然而,大芯片的設計和實現也面臨著一些挑戰,包括制造和封裝、設計成本和 IP 重用、良率和散熱。在下面的章節中,我們將深入探討這些挑戰以及芯片集成和晶圓級集成所提供的解決方案。

制造和封裝。在大芯片中,確保裸片封裝具有高性能和可靠的裸片間互連非常重要。在標準制造中,劃線是將芯片與相鄰芯片分開的區域。為了實現晶圓級集成,需要在劃片線上鋪設大量導線,以實現晶圓上的芯片互連。例如,Cerebras System WSE-1[27]使用了最新提出的臺積電 InFO_SoW 封裝技術[29],如圖 5(a)所示,在刻線上添加導線,實現了網狀互連,其線路密度和帶寬密度是 MCM 的 2 倍。芯片設計不需要在刻線上添加導線來連接芯片,而是在有機基板或硅插層[24]、[30]上實現裸片之間的通信,從而提供更靈活、更多樣化的芯片布局選擇。封裝是晶圓級集成的另一個挑戰。在考慮大規模晶圓和 PCB 的封裝時,有必要減輕晶圓和 PCB 因受熱而產生的不同熱膨脹的影響,從而提高封裝的可靠性[27]。此外,在封裝過程中還必須考慮大型晶圓和 PCB 之間相互作用造成的影響,如機械應力。

為了提高封裝性能,一些緩沖應力的元件(如連接器)被用來緩解這些問題[27]。然而,額外引入的連接器增加了封裝的難度。需要確保晶片、連接器和印刷電路板之間的凸點精確對齊。目前,還沒有一種可靠的封裝工具能保證這種對齊要求,因此需要重新開發一種新的定制封裝工具[27]。如圖 5(b)[4]所示,片式集成提供了多種成熟且經過驗證的 2D/2.5D/3D 封裝技術,這些片式封裝的可靠性也已在一些研究中得到證實[31],[32]。

fa2a4d54-b9cb-11ee-8b88-92fbcf53809c.png

圖 5. 芯片級集成與晶圓級集成的制造和封裝比較[4], [29]。

設計成本和 IP 重用。在構建大芯片時,需要考慮設計時間和相關成本,其中 IP 重用是幫助降低設計成本的常用方法。由于晶圓級集成是在同一晶圓上實現所有芯片,因此晶圓上的每個芯片都是通過相同的工藝實現的[27]。這導致系統設計存在兩個缺陷。首先,晶圓級集成降低了使用成熟且先進的工藝的可能性。其次,晶圓級集成的特點是系統緊密,晶圓上的芯片很難作為功能組件重復使用[33]。芯片 IP 重用方案如圖 6 所示。系統應用被分解成許多基本功能裸芯,然后進行邏輯組合和物理集成。

與晶圓級集成相比,芯粒封裝技術支持對異構工藝制造的芯片進行集成。它允許以高性能為目標的重要工藝單元通過先進工藝來實現,而其他單元(例如IO)可以通過成熟工藝來實現,從而提高計算能力并最小化成本[34]。此外,所實現的芯粒作為預組件或IP,可以在下一代設計中重復使用,這顯著縮短了設計時間并降低了設計成本[35]。因此,chiplet集成通過IP復用帶來了降低設計成本的突出優勢。

fa447300-b9cb-11ee-8b88-92fbcf53809c.jpg

圖6 芯粒IP 復用表

良率?;诙嘈玖O到y的大芯片的整體良率是一個更值得關注的因素。Chiplet集成和晶圓級集成分別引入了Known Good Die(KGD)[36]方法和冗余設計[27]來提高整體良率。由于器件和環境因素的影響,很難保證晶圓上的每個芯片都是好的,這意味著對于晶圓級集成來說,不可避免地會導致晶圓上的芯片出現缺陷。此外,由于一些晶圓級集成設計在劃片中添加了互連線,因此劃片區域中出現的缺陷也會損害良率。為了解決良率挑戰,Cerebras 提出了冗余設計,其中包括 1.5%額外的核心[27]。作為類似的晶圓級集成設計,Trilogy System的芯片引入了2倍冗余設計[26]。這種冗余設計允許禁用有缺陷的芯片,然后用冗余芯片替換,冗余芯片與其他良好芯片的鏈接將在結構上重建,從而避免由于有缺陷的芯片而導致片上網絡和通信的性能下降。

然而,冗余設計和重新連接增加了設計開銷,并且需要設計者和代工廠之間緊密的協同設計。相反,芯粒技術有利于提高整體良率。芯粒有兩個方面的良率提升。第一個是通過減小單個芯片尺寸來提高良率[37]?;谛玖<夹g,可以用小芯片集成大芯片。隨著芯片尺寸變小,良率也會提高。提高良率的第二個層次是使用已知良好芯片(KGD)[36]進行封裝。芯粒技術不是從晶圓上切割最大的正方形,而是從晶圓上切割單個芯片,只允許封裝通過老化測試的單個芯片,從而提高良率。

散熱。隨著大芯片中集成的晶體管數量越來越多,芯片的功耗猛增,大芯片的功耗可以大得驚人。因此,散熱就成為一個關鍵問題。在晶圓級集成中,WSE [27]開發了冷平面和定制連接器來解決散熱和熱效應。熱量通過水和芯片之間的接觸而被帶走。在當前的芯粒集成中,引入散熱器來散熱[30]。與帶有大型水冷系統的晶圓級集成相比,帶有小型散熱器的芯粒集成的散熱解決方案在移動和邊緣應用中更加靈活。

4. 模型:評估大芯片

4.1

性能需求模型

大芯片系統的巨大規模帶來了新的挑戰,例如對內部芯粒的片外訪問和長距離通信的限制。高度的可定制性以及廣泛的集成技術和架構使得很難確定特定市場的最佳設計[38]。在這種情況下,需要一個通用性能模型來深入了解大芯片設計的關鍵方面,并為架構改進提供指導,包括集成技術選擇、并行性、互連和內存層次結構設計、片外帶寬等

我們提出了一個性能模型來表征不同規模區域的性能瓶頸。盡管并不完美,但該模型提供了對關鍵方面的見解,可以提高給定設計的性能上限。我們首先解釋如何推斷該模型,重點關注數據通信和并行性,這是決定系統性能的關鍵因素。然后,我們確定了提高不同區域峰值性能的方法,并說明了模型在某些方法下如何變化。

4.2

性能模型外推

我們研究大芯片系統擴展時的性能變化。為了兼顧數據通信和并行性等方面,我們選擇面積(A)作為表示系統規模變化的變量。造成整個系統處理延遲的主要因素有三個,即計算、片外訪問和芯片間(或內核間)通信。這三個部分的延遲可簡單計算為:

fa483c9c-b9cb-11ee-8b88-92fbcf53809c.png

其中,CA 指計算能力,BWoff-chip指芯片外帶寬,BWintra-chip指芯片間或內核間帶寬。其中,αoff-chip和 αintra-chip是歸一化的數據移動量,分別表示每次計算(以 B/op 為單位)從片外存儲器和芯片(或內核)之間移動的數據量。

現在,我們需要弄清楚CA、BWs和A之間的關系。隨著系統規模的擴大,采用特定設計的大芯片的計算能力呈線性增長。其關系可表示為:

fa501912-b9cb-11ee-8b88-92fbcf53809c.png

cd指的是計算元件的密度,fcomputing指的是計算頻率。在某種設計中,可以通過將芯片(或內核)中的計算元件數量按其面積劃分來估算cd。

芯片外訪問帶寬與芯片周長成正比,因為 I/O 布置在芯片邊緣。如果我們將 I/O 密度視為特定設計,那么芯片外帶寬與面積之間的關系可估算為:

fa5b6b1e-b9cb-11ee-8b88-92fbcf53809c.png

其中,bωof f-chip表示沿芯片邊緣的芯片外帶寬密度,單位為 GB ps/mm。它也可以表示為 I/O 密度與數據傳輸頻率的乘積。

當涉及芯片間或內核間通信延遲,有兩個基本假設。第一個假設是總線上的數據傳輸是同時進行的。在這種假設下,片內通信延遲應該是所有總線延遲中的最大值:

fa6bbc26-b9cb-11ee-8b88-92fbcf53809c.png

第二個假設是,大芯片系統的擴展主要取決于相同基線設計的重復性,基線設計可以是芯片或內核的設計。那么,每個基線設計的帶寬(即等式 11 中的BWi)可視為常數。因此,芯片內通信延遲可表示為:

fa79fea8-b9cb-11ee-8b88-92fbcf53809c.png

然后,我們推斷總延遲與這三個決定性部分的關系。在此,我們引入了另一個與上述第一個假設類似的新假設,即計算、芯片外訪問和芯片內通信同時運行。那么我們有:

fa81c494-b9cb-11ee-8b88-92fbcf53809c.png

由于性能與延遲成反比,我們可以得出:

fa8df85e-b9cb-11ee-8b88-92fbcf53809c.png

這是在估算延遲時的一個極端假設,還有另一個極端假設,即這三個操作是完全相繼進行的。那么總延遲等于所有三部分延遲的總和。實際情況介于這兩個極端之間。即使在這種極端情況下,我們也可以假設每個區域都有一個部分主導總延遲,那么表達式就與公式 14 相同。將等式 9、10 和 12 代入等式 14,我們就得到了作為芯片面積函數的最終性能模型:

fa9c0e3a-b9cb-11ee-8b88-92fbcf53809c.png

這三個部分的分別是與面積成正比、與面積的平方根成正比和隨面積變化而不變。在其他參數取值不同的情況下,性能模型的趨勢應該有三種可能,如圖 7 所示。在圖 7(a)所示的平衡模式中,性能模型被劃分為 3 個區域。在芯片面積較小的第一個區域,計算能力不足是性能的關鍵瓶頸。隨著系統規模的擴大,片外訪問阻礙了并行計算資源增加所帶來的性能增長。在這一區域,性能以越來越慢的趨勢持續增長,當片內通信發揮主導作用時,性能達到頂峰。在計算密集型和計算稀疏型模式中,計算資源的充足與否導致沒有計算主導或片外主導區域,如圖 7(b) 和 7(c) 所示。

faadddd6-b9cb-11ee-8b88-92fbcf53809c.png

圖 7. 性能模型的三種可能趨勢。

4.3

與單片多核和多芯片系統的比較

我們將芯粒系統的性能模型與單片多核和多芯粒系統的性能模型進行比較,以證明大芯片系統的性能優勢。我們使用的基線設計參數來自AMD的“Zepplin”SoC及其第一代EPYC TM 芯粒處理器[39]。我們假設三個系統的計算能力和片外訪問是相同的,那么唯一的區別在于“片內通信”區域。芯粒間和芯片間通信由“Zepplin”SoC 上配備的無限結構 (IF) 和 PCIe 分別提供[39],片外帶寬密度通過將其兩通道 DDR4 帶寬除以SoC 的長邊長度。我們設置αoff-chip和αintra-chip分別為 6 和 4。性能曲線如圖8所示。

fb39e984-b9cb-11ee-8b88-92fbcf53809c.png

圖 8. 芯粒組、單片多核和多芯片系統的性能模型比較。

理想情況下,由于內核間帶寬的限制較少,單片芯片比其他兩個系統具有更高的峰值性能。然而,單片設計面臨著步進式光刻機最大區域尺寸帶來的“區域墻”的巨大挑戰,這阻礙了性能的增長。為了繼續系統擴展,轉而采用傳統工藝下的多芯片集成技術,在性能曲線上表現為隨著面積的增加,漸近線向多芯片設計線發展(圖中未標出這一趨勢)。由此,我們可以推斷出大芯片系統的高性能可擴展性的優勢。

4.4

性能優化

性能優化方法通??煞譃槿齻€層次:工作負載映射、架構和物理設計。在性能模型中,優化表現為曲線函數或位置的變化。在接下來的章節中,我們將首先以三維堆疊為例,闡明物理設計如何改變性能曲線的形狀,然后說明αoff-chip和αintra-chip在我們的模型中扮演的角色及其主導因素。

模型形狀的優化。我們采用Tetris 芯粒加速器[40]的2D集成和3D堆疊實現來證實物理設計,特別是集成技術,通過改變性能曲線的形狀來從根本上優化芯片性能。

2D 和 3D 實現的主要區別在于片外訪問方式。2D Tetris使用 LPDDR3,符合等式 10 中的關系。3D Tetris使用混合存儲器立方體(HMC)[41], [42]作為三維存儲器基板,與邏輯芯片垂直面對面堆疊,通過高速硅通孔(TSV)通信,那么片外帶寬應與面積成正比,如公式 16 所示。

fb4323f0-b9cb-11ee-8b88-92fbcf53809c.png

這里,bwoff-chip,area的單位是GBps/mm2

如圖 9 所示,我們可以得到兩種實現方式的性能模型,其中芯片間帶寬來自傳統的 HMC 設計。由于采用了高度并行的處理元件,雖然頻率不是很高(500MHZ)[40],但計算能力非常強,因此在這兩種方案中都不會成為瓶頸。

fb4fcee8-b9cb-11ee-8b88-92fbcf53809c.png

圖 9. Tetris二維集成設計和三維堆疊設計的性能模型對比。三維堆疊優化改變了模型曲線的形狀。

雖然 3D 實現仍然受到最大硅片面積的限制,但與 2D 設計相比,3D 實現的片外瓶頸區域大大縮小,即使芯片面積較小,也能輕松達到峰值性能,這歸功于 3D 存儲器堆疊技術提供的豐富布線資源和高速傳輸。從這個例子中我們可以看出,一項設計工作可能不會對系統的性能做出貢獻,但卻能在設計者感興趣的區域帶來突出的改進。

αoff-chip和αintra-chip的作用。αoff-chip指芯片與芯片外存儲器之間傳輸的數據量,αintra-chip指通過總線互連的兩個芯?;騼群酥g傳輸的最大數據量。雖然它們都是與數據量有關的變量,而且在上文的討論中假定它們與芯片面積保持不變,但它們會受到芯片內存容量和互連結構等架構設計的影響。

αoff-chip取決于應用,即計算所需的數據量、工作負載映射、調度策略以及架構設計,尤其是芯片內存容量。片外訪問的數據量由兩部分組成:由工作負載所需的數據量決定的恒定部分,以及由無效的工作負載映射策略或片上內存容量不足造成的冗余部分。隨著映射和片上內存比例的改善,數據局部性可以得到優化,αoff-chip也會相應降低,然后在片外區域出現性能曲線,如圖 10(a)所示。

fb61f686-b9cb-11ee-8b88-92fbcf53809c.png

圖 10. αoff-chip和αintra-chip的影響。

αintra-chip由應用、芯片內存容量和互連結構決定。應用和片上存儲器會影響每個芯片上的數據位置?;ヂ摻Y構的影響可以從更廣闊的角度來闡述??紤]到在兩個節點之間傳輸固定數量的數據,它們之間的路由越多,分配到每條路由上的數據就越少,從而導致每條總線傳輸的數據量減少,最大值也是如此。與網狀設計相比,Cmesh 是一種能實現較低αintra-chip值的互連設計。αintra-chip值的降低可提高芯片設計的峰值性能。

5. 架構:構建大芯片

大芯片的架構設計對性能有重大影響,與內存訪問模式密切相關。在內存訪問模式方面,與傳統的多核處理器設計考慮將多核集成在單個裸片上訪問內存不同,大芯片設計側重于多個多核裸片訪問內存系統。根據內存訪問模式,大芯片可以分為對稱芯粒架構、NUMA(非均勻內存訪問)芯粒架構、集群芯粒架構和異構芯粒架構。在接下來的章節中,我們將以利用芯粒技術構建大芯片為例,從性能、可擴展性、可靠性、通信等方面討論這些大芯片架構的特點。

對稱芯粒架構。如圖 11(a)所示,對稱芯粒架構由許多相同的計算芯粒組成,它們通過路由器網絡或芯粒間資源(例如中介層)訪問共享的統一存儲器或IO。芯??梢栽O計為具有本地緩存的多核結構,或者具有多個處理元件的NoC結構。統一內存可以被所有芯粒平等地訪問,這體現了UMA(統一內存訪問)的效果。我們現在討論對稱芯粒架構的三個主要優點。首先,對稱芯粒架構允許多個芯粒執行指令以提供高計算能力。工作負載可以分成小塊,然后分配給不同的 芯粒,以加快應用程序的執行速度,同時保持不同芯粒之間的工作負載平衡。其次,這種對稱的芯粒架構提供了從不同芯粒到內存的統一延遲,無需考慮NUMA等分布式共享內存系統中的遠程訪問或內存復制,從而節省了由于不必要的數據移動而導致的延遲和能耗。第三,對稱芯粒處理器還提供冗余設計,其他芯??梢越庸芄收闲玖5墓ぷ?,從而提高系統可靠性。由于共享內存,對稱芯粒處理器可以在不增加額外私有內存的情況下增加芯粒的數量。

然而,當對稱芯粒架構繼續擴大芯粒數量時,互連設計將受到物理布線的嚴重限制。解決高帶寬芯粒間通信和內存請求沖突也具有挑戰性。請注意,增加 芯粒 的數量可能會增加不同 芯粒 對存儲器的請求沖突,這會損害系統性能。平均而言,內存帶寬由芯粒劃分。增加芯粒的數量會減少每個芯粒分區內存帶寬。工業界和學術界的一些設計采用了對稱芯片架構。Apple M1 Ultra 處理器[43]采用了芯粒集成設計,具有兩個相同的 M1 Max 芯片,具有統一的內存架構設計。芯片上的核心可以訪問高達 128GB 的統一內存。Fotouhi[44]提出了一種基于芯粒集成的統一內存架構,以克服距離相關的功耗和延遲問題。Sharma [45]提出了一種通過板載光學互連共享統一存儲器的多芯片系統。

fb7dadc2-b9cb-11ee-8b88-92fbcf53809c.png

圖 11. 大芯片處理器的架構。

fb9f1ed0-b9cb-11ee-8b88-92fbcf53809c.png

圖 12. 大芯片不同架構之間的比較。

NUMA-芯粒架構。NUMA芯粒架構包含通過點對點網絡或中央路由器互連的多個芯粒,并且NUMA芯粒架構的存儲器系統由所有芯粒共享但分布在架構中,如圖11 (b)所示。芯??梢圆捎霉蚕砭彺娴亩嗪嗽O計,或者通過NoC互連的PE的設計。而且,每個芯??梢哉加米约旱谋镜卮鎯ζ?,例如DRAM、HBM等,這是其區別于對稱芯粒架構的最明顯特征。盡管這些連接到不同芯粒的存儲器分布在系統中,但存儲器地址空間是全局共享的。共享內存的這種分布式放置會導致 NUMA 效應,即訪問遠程內存比訪問本地內存慢[46]。NUMA-芯粒 架構考慮了一些優點。從單個芯粒的角度來看,每個芯粒都擁有自己的內存,具有相對私有的內存帶寬和容量,減少了與其他芯粒的內存請求的沖突。此外,芯片與內存的緊密放置提供了數據移動的低延遲和低功耗。

此外,在NUMA-芯粒架構中,通過高帶寬點對點網絡或路由器互連的多個芯??梢圆⑿袌绦腥蝿?,從而提高系統性能和兼容性。這種 NUMA 芯粒架構具有很高的可擴展性,因為每個芯粒都有自己的內存。然而,隨著 NUMA-芯粒 架構擴展到更多的芯粒,設芯粒到芯?;ミB網絡變得具有挑戰性。

此外,隨著芯粒數量的增加,編程模型的成本和難度也隨之增加。有一些設計采用 NUMA-芯粒 架構。AMD 的第一代 EPYC 處理器將四個相同的芯粒與本地內存連接起來[39]。對內存的本地訪問和遠程訪問之間的延遲差異可達 51ns [46]。

在AMD的第二代EPYC處理器中,計算芯粒通過IO芯粒連接到內存,這顯示了NUMA-芯粒架構[34]。另一種典型的 NUMA-芯粒 架構設計是 Intel Sapphire Rapids [47]。它由四個芯粒組成,通過 MDFIO(多芯片結構 IO)連接。四個芯粒組織為 2x2 陣列,每個芯片充當 NUMA 節點。Zaruba [48]架構了 4 個基于 RISC-V 處理器的芯粒,每個芯粒都有三個分別與其他三個芯粒的鏈接,以提供非統一的內存訪問。

集群芯粒架構。如圖 11(c)所示,集群芯粒架構包含許多芯粒集群,總共有數千個核心。采用環形、網狀、一維/二維環面等高速或高吞吐量網絡拓撲來連接集群,以滿足此類超大規模系統的高帶寬和低延遲通信需求。每個集群由許多互連的芯粒和單獨的內存組成,并且每個集群都可以運行單獨的操作系統。集群可以通過消息傳遞的方式與其他集群進行通信。通過高性能互連實現強大集群互連的集群-芯粒架構顯示出高可擴展性并提供巨大的計算能力。作為一種高度可擴展的架構,集群芯粒架構是許多設計的基礎。IntAct [30]集成了 96 個內核,這些內核在有源中介層上分為 6 個芯粒。6 個芯粒通過 NoC 連接。Tesla[49]發布了用于億級計算的Dojo系統微架構。在 Dojo 中,一個訓練圖塊由 25 個 D1 芯粒組成,這些芯粒排列為 5x5 矩陣樣式。通過 2D 網格網絡互連的許多訓練塊可以形成更大的系統。Simba[1]通過 MCM 集成,利用網狀互連構建了 6x6 芯粒系統。芯粒 內的 PE 使用 NoC 連接。

異構芯粒架構。異構芯粒架構由不同種類的芯粒組成,如圖11(d)所示。同一中介層上的不同種類的芯??梢耘c其他種類的芯?;パa,協同執行計算任務。華為鯤鵬920系列SoC[25]是基于計算芯粒、IO 芯粒、AI 芯粒等的異構系統。Intel Lakefield[50]提出了將計算芯粒堆疊在基礎芯粒上的設計。計算芯粒集成了許多處理核心,包括CPU、GPU、IPU(基礎設施處理單元)等,基礎芯粒包含豐富的IO接口,包括PCIe Gen3、USB type-C等。在Ponte Vecchio[51]中,有兩個基礎tile使用EMIB(嵌入式多芯片互連橋)互連。計算tile和 RAMBO tile堆疊在每個基礎tile上。Intel Meteor Lake處理器[52]集成了GPU tile、CPU tile、IO tile和SoC tile。

對于當前和未來的億億級計算,我們預測分層芯粒架構將是一種強大而靈活的解決方案。如圖11 (e)所示,分層芯粒架構被設計為具有分層互連的多個內核和多個芯粒。在芯粒內部,內核使用超低延遲互連進行通信,而芯粒之間則以得益于先進封裝技術的低延遲互連,從而在這種高可擴展性系統中實現片上延遲和NUMA效應可以最小化。存儲器層次結構包含核心存儲器、片內存儲器和片外存儲器。這三個級別的內存在內存帶寬、延遲、功耗和成本方面有所不同。在分層芯粒架構的概述中,多個核心通過交叉交換機連接并共享緩存。這就形成了一個pod結構,并且pod通過芯粒內網絡互連。多個pod形成一個芯粒,芯粒通過芯粒間網絡互連,然后連接到片外存儲器。需要仔細設計才能充分利用這種層次結構。合理利用內存帶寬來平衡不同計算層次的工作負載可以顯著提高芯粒系統效率。正確設計通信網絡資源可以確保芯粒協同執行共享內存任務。

6. 構建大芯片:我們的實現

為了探索大芯片的設計和實現技術,我們架構和設計了一個基于 16 芯粒的 256 核處理器系統,命名為浙江大芯片。在此,我們將介紹所提出的大芯片處理器。

浙江大芯片采用可擴展的基于瓦片的架構,如圖13所示。該處理器由 16 個小芯粒組成,并且有可能擴展到 100 個小芯粒。每個芯粒中都有16個CPU 處理器,通過片上網絡(NOC) 連接,每個tile 完全對稱互連,以實現多個芯粒之間的通信。CPU處理器是基于RISC-V指令集設計的。此外,該處理器采用統一內存系統,這意味著任何tile上的任何核心都可以直接訪問整個處理器的內存。

fba3106c-b9cb-11ee-8b88-92fbcf53809c.png

圖 13. 浙江大芯片概況

為了連接多個小芯粒,采用了芯片間 (D2D) 接口。該接口采用基于時分復用機制的通道共享技術進行設計。這種方法減少了芯片間信號的數量,從而最大限度地減少了 I/O 凸塊和內插器布線資源的面積開銷,從而可以顯著降低基板設計的復雜性。小芯粒終止于構建微型 I/O 焊盤的頂部金屬層。浙江大芯處理器采用22 nm CMOS工藝設計和制造。

7. 前景與挑戰

除了提高計算能力,大芯片還將促進新型設計方法的發展。我們預測,近存計算和光電計算將是重要的研究方向。

7.1

近存計算

由于計算工作量大量集中在芯粒中,片外存儲系統通常具有簡單的存儲數據和IO的功能。對于數據局部性較差的應用,頻繁發生片內緩存未命中,導致需要從片外存儲器重新加載數據。大量芯粒和內存之間頻繁的數據移動可能會導致額外的延遲和高能耗。在對稱芯粒架構中,總線擁塞會使這種情況惡化,從而降低系統性能。為了解決這些問題,可以使用近數據處理來引入近存計算,將處理和內存單元與高帶寬互連緊密放置,以最大限度地提高系統性能。近存計算打破了傳統內存層次結構的性能限制。3D 堆棧內存是近存計算的一個很好的例子,其作為容量、帶寬和性能限制的解決方案而受到越來越多的關注。

在3D堆疊存儲器中,多個DRAM芯粒垂直堆疊在底部邏輯芯粒上,TSV實現芯粒之間的電氣連接,表現出芯粒間數據傳輸的高帶寬。位于堆疊存儲器底部的邏輯芯??梢赃M行相對簡單的數據處理,承擔部分計算工作量。近存計算的另一種方法是增加片內緩存的容量,以在片上保留更多數據,而不是頻繁調度片內和片外數據。AMD提出了3D V-cache技術,在Zen3共享的32MB L3緩存上堆疊64MB緩存,總共實現96MB L3緩存。Cerebras WSE 甚至實現了 18GB 片上內存。

7.2

光電子計算

光電子計算已成為解決電氣設計瓶頸的潛在方案,尤其是用于芯片間通信的電氣 IO,隨著高帶寬需求的增加,這一瓶頸變得更加突出[53]、[54]、[55]。目前,電氣互連的數據速率、引腳數和引腳間距都受到串擾等信號完整性問題的限制。此外,一些引腳被保留用于電源/接地引腳等非通信目的,進一步降低了引腳利用率,加劇了阻礙芯片間高帶寬通信的互連物理限制。然而,限制芯粒之間的距離可能會導致與遠程芯粒通信的多跳,這進一步影響系統性能。

本文定義的光 IO 處理器是未來的一項重要技術,它利用 IO 芯片和光學設備促進高帶寬通信。光 IO 處理器能克服傳統電氣互連的信號完整性限制,使其成為解決上述電氣設計問題的有吸引力的解決方案。研究[53]、[54]、[55]、[56]、[57]說明了高性能、低能耗光 IO 實現和封裝的可行性。

7.3

挑戰

大芯片雖然可以實現強大的計算能力,但仍面臨良率、散熱和性能等主要挑戰。首先,大芯片的集成步驟較多,受器件、技術、環境等因素影響,難以保證高良率。雖然 KGD 等方法可以提高良率,但也必須考慮缺陷芯片的設計成本。其次,散熱是大芯片設計中的一個重要問題,大量芯片會產生大量熱量。因此,散熱系統和低功耗設計至關重要。最后,大芯片設計中的任務映射和設計空間探索實施起來具有挑戰性。此外,在芯粒集成中,必須考慮不均勻帶寬效應。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 晶圓
    +關注

    關注

    52

    文章

    4623

    瀏覽量

    126640
  • 晶體管
    +關注

    關注

    77

    文章

    9141

    瀏覽量

    135794
  • 人工智能
    +關注

    關注

    1780

    文章

    44671

    瀏覽量

    231530
  • 硅芯片
    +關注

    關注

    0

    文章

    86

    瀏覽量

    16847
  • 深度神經網絡

    關注

    0

    文章

    43

    瀏覽量

    4486

原文標題:“大芯片”的挑戰、模式和架構

文章出處:【微信號:wc_ysj,微信公眾號:旺材芯片】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    多核架構高性能電機控制芯片

    基于傳統單核架構的電機控制芯片已無法應對新出現的嚴峻挑戰,多核架構的控制芯片應運而生。雙核架構
    的頭像 發表于 04-19 14:46 ?1566次閱讀
    多核<b class='flag-5'>架構</b>高性能電機控制<b class='flag-5'>芯片</b>

    交換芯片架構是什么意思 交換芯片架構怎么工作

    交換芯片架構是指交換芯片內部的設計和組織方式,包括其硬件組件、處理單元、內存結構、接口以及其他關鍵部分的布局和相互作用。交換芯片架構決定了
    的頭像 發表于 03-22 16:45 ?314次閱讀

    交換芯片架構設計

    交換芯片架構設計是網絡設備性能和功能的關鍵。一個高效的交換芯片架構能夠處理大量的數據流量,支持高速數據傳輸,并提供先進的網絡功能。
    的頭像 發表于 03-21 16:28 ?242次閱讀

    淺析泛在電力物聯網發展形態與挑戰

    淺析泛在電力物聯網發展形態與挑戰 張穎姣 安科瑞電氣股份有限公司 上海嘉定 201801 摘 要: 泛在電力物聯網是當前智能電網發展的一個方向。首先,總結了泛在電力物聯網的主要作用和價值體現;其次
    的頭像 發表于 02-26 11:04 ?252次閱讀
    <b class='flag-5'>淺析</b>泛在電力物聯網發展形態與<b class='flag-5'>挑戰</b>

    淺析電子負載常見的的四種工作模式

    淺析電子負載常見的的四種工作模式 電子負載是電子設備的一種,用于模擬負載并測試電源的性能。它在電子行業和電力領域有廣泛的應用。電子負載常見的四種工作模式是恒阻模式、恒流
    的頭像 發表于 01-22 13:43 ?608次閱讀

    揭秘GPU: 高端GPU架構設計的挑戰

    在計算領域,GPU(圖形處理單元)一直是性能飛躍的代表。眾所周知,高端GPU的設計充滿了挑戰。GPU的架構創新,為軟件承接大模型訓練和推理場景的人工智能計算提供了持續提升的硬件基礎。GPU架構
    的頭像 發表于 12-21 08:28 ?536次閱讀
    揭秘GPU: 高端GPU<b class='flag-5'>架構</b>設計的<b class='flag-5'>挑戰</b>

    淺析低成本負端5v2.4a同步整流芯片U7711

    淺析低成本負端5v2.4a同步整流芯片U7711開關電源如何同步整流?開關電源同步整流是一種取代整流二極管的新技術。它可以通過在直流模式下使用極低的電阻功率來減少整流器的損耗,有效提高轉換器的轉換
    的頭像 發表于 09-04 16:25 ?766次閱讀
    <b class='flag-5'>淺析</b>低成本負端5v2.4a同步整流<b class='flag-5'>芯片</b>U7711

    FPGA架構演進之路 FPGA架構設計原則和實現挑戰

    。在這篇文章中,我們回顧了現代商用FPGA架構的不同關鍵組件的演變,并闡明了它們的主要設計原則和實現挑戰。
    發表于 08-11 09:52 ?1280次閱讀
    FPGA<b class='flag-5'>架構</b>演進之路 FPGA<b class='flag-5'>架構</b>設計原則和實現<b class='flag-5'>挑戰</b>

    ai芯片技術架構有哪些

    ai芯片技術可以分為不同的體系架構。下面將對ai芯片技術架構做詳細介紹。 首先,ai芯片技術架構
    的頭像 發表于 08-09 14:28 ?1116次閱讀

    芯片云上設計面臨的挑戰有哪些

    速度是如何加快的,在云上進行芯片設計的好處有哪些,以及當今芯片云上設計面臨的一些最緊迫的挑戰。 SE:向芯片云上設計的轉變正在加速,相應的商業模式
    的頭像 發表于 08-08 10:54 ?644次閱讀

    基于磁貼的GPU架構優缺點

    本指南介紹了基于磁貼的GPU架構的優缺點。它還將ARM馬里基于瓷磚的GPU架構設計與臺式PC或控制臺中常見的更傳統的即時模式GPU進行了比較。 馬里GPU使用基于平鋪的渲染體系結構。這意味著GPU
    發表于 08-02 12:54

    淺談FPGA芯片架構

    ?FPGA 芯片架構是非常重要的,如果你不了解 FPGA 芯片內部的詳細架構。
    的頭像 發表于 07-04 14:36 ?942次閱讀
    淺談FPGA<b class='flag-5'>芯片</b><b class='flag-5'>架構</b>

    嵌入式軟件最常見的架構模式

    嵌入式軟件因為硬件資源限制,可能存在驅動與應用耦合的情況,但對于大型項目,資源充裕的情況下,復雜的業務邏輯、后續擴展維護的需要,必須采用分層和模塊化思維,這種思想就是架構模式。一般分7種架構模式
    的頭像 發表于 06-22 10:32 ?1959次閱讀
    嵌入式軟件最常見的<b class='flag-5'>架構模式</b>

    架構模式的基礎知識

    ????作為軟件工程師,為什么至少要學習基本的架構模式? ????我相信有很多人回答了這個問題,但我會給你一些考慮的理由。 ????首先,如果您了解架構模式的基礎知識,那么您就更容易遵循架構師的要求
    的頭像 發表于 06-13 16:13 ?500次閱讀
    <b class='flag-5'>架構模式</b>的基礎知識

    嵌入式7種架構模式分析

    ? 嵌入式軟件因為硬件資源限制,可能存在驅動與應用耦合的情況,但對于大型項目,資源充裕的情況下,復雜的業務邏輯、后續擴展維護的需要,必須采用分層和模塊化思維,這種思想就是架構模式。一般分7種架構模式
    的頭像 發表于 06-13 15:31 ?3333次閱讀
    嵌入式7種<b class='flag-5'>架構模式</b>分析
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>