<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AMD帶領GPU進入Chiplet時代 RDNA3架構深入解讀

Hack電子 ? 來源:半導體行業觀察 ? 2023-06-12 10:14 ? 次閱讀

11月3日,AMD 透露了其 RDNA 3 GPU 架構和 Radeon RX 7900 系列顯卡的關鍵細節。這是一個公開宣布,全世界都被邀請觀看。宣布后不久,AMD 邀請媒體和分析師進行了閉門采訪,以更深入地研究是什么讓 RDNA 3 起作用——或者它是否起作用?

對架構的深入研究主要集中在 RX 7900 XTX/XT (Navi 31) GPU 上,但在接下來的幾個月中,我們了解了更多細節。這些 GPU 旨在與Nvidia Ada Lovelace 和 RTX 40 系列 GPU競爭,以打造最佳顯卡. 我們從 AMD 提供的其他簡報中獲得了額外的 RDNA 3 詳細信息,我們將立即對其進行分類。自從我們最初發布此 RDNA 3 架構深入研究以來,我們已經審查了Radeon RX 7900 XTX 和 7900 XT,以及Radeon RX 7600。

由于使用了Chiplet設計,AMD 的 RDNA 3 架構從根本上改變了 GPU 的幾個關鍵設計元素。這是一個很好的起點。

AMD 已經正式推出了 RX 7900 XTX/XT 和 RX 7600。介于 RX 7800 系列和 RX 7700 系列之間的部分仍然是 MIA,但有傳言稱它們可能會在 2023 年 7 月到達。所有規格和細節都在7800/7700 是目前最好的猜測。

在頂部,AMD 為 Navi 31 提供了多達 96 個計算單元 (CU),但這并不能說明全部情況。相對于之前的 RDNA 2 架構,每個 GPU“核心”的吞吐量都翻了一番。因此,RX 7900 XTX 上的 6144 個內核提供理論上 61.4 teraflops 的 FP32 性能,是 FP16 的兩倍。相比之下,RX 6950 XT 有 5120 個內核,但計算能力僅為 23.7 teraflops。

L0/L1/L2 緩存的緩存大小更大,但 Infinity Cache(即 L3)在 7900 XTX 上已減少到最大 96MB。其他 GPU 包括每個 64 位接口 16MB 的緩存。

與 RDNA 2 代相比,時鐘速度有所提高,具體取決于您正在查看的 GPU。Navi 21 部件的官方加速時鐘高達 2.31 GHz,而 Navi 31 將其增加到 2.5 GHz。然而,其他 Navi 2x GPU 的時鐘頻率往往已經在 2.5 GHz 范圍內。

到目前為止,定價至少在理論上與上一代產品相當或更好。實際上,一旦以太坊挖礦結束,之前的部分價格暴跌,目前 RX 6950 XT 的售價為 600 ~ 700 美元。同樣,RX 7600 的廠商建議零售價為 269 美元,而之前的 RX 6650 XT 的廠商建議零售價為 399 美元,但至少從 10 月開始,6650 XT 的售價一直在 250 美元至 275 美元之間。

讓我們繼續討論 RDNA 3 架構的其他細節。

AMD RDNA 3 和 GPU 小芯片

Navi 31 由兩個核心部分組成,即圖形計算芯片 (GCD) 和內存緩存芯片 (MCD)。這與 AMD 對其 Zen 2/3/4 CPU 所做的事情有相似之處,但一切都經過調整以適應圖形世界的需求。

629d4318-08c5-11ee-962d-dac502259ad0.png

對于 Zen 2 及更高版本的 CPU,AMD 使用連接到系統內存的輸入/輸出芯片 (IOD),并為 PCIe Express 接口、USB 端口以及最近的 (Zen 4) 圖形和視頻等提供所有必要的功能功能。IOD 然后通過 AMD 的 Infinity Fabric 連接到一個或多個核心計算芯片(CCD — 或者“核心復雜芯片”),CCD 包含 CPU 核心、緩存和其他元素。

62fcbfdc-08c5-11ee-962d-dac502259ad0.png

設計中的一個關鍵點是典型的通用計算算法——在 CPU 內核上運行的東西——將主要適合各種 L1/L2/L3 緩存。直到 Zen 4 的現代 CPU 只有兩個用于系統 RAM 的 64 位內存通道(盡管EPYC Genoa 服務器處理器最多可以有十二個 DDR5 通道)。

6325122a-08c5-11ee-962d-dac502259ad0.png

CCD 很小,IOD 范圍從大約 125mm2(Ryzen 3000)到 416mm2(EPYC xxx2 代)。最近,Zen 4 Ryzen 7000 系列 CPU 的 IOD 使用 TSMC N6 制造,尺寸僅為 122mm2,帶有一個或兩個在 TSMC N5 上制造的 70mm2 CCD,而 EPYC xxx4 代使用相同的 CCD,但具有相對巨大的 IOD 尺寸為 396mm2(仍由 TSMC N6 制造)。

6336b7dc-08c5-11ee-962d-dac502259ad0.png

GPU 有非常不同的要求。大型緩存可以提供幫助,但 GPU 也非常喜歡擁有大量內存帶寬來滿足所有 GPU 核心的需求。例如,即使是配備 12 通道 DDR5 配置的 EPYC 9654 也“僅”提供高達 460.8 GB/s 的帶寬。RTX 4090 等最快的顯卡可以輕松將其翻倍。

換句話說,AMD 需要做一些不同的事情來讓 GPU 小芯片有效地工作。該解決方案最終幾乎與 CPU 小芯片相反,內存控制器和緩存被放置在多個較小的芯片上,而主要計算功能位于中央 GCD 小芯片中。

GCD 包含所有計算單元 (CU) 以及其他核心功能,如視頻編解碼器硬件、顯示接口和 PCIe 連接。Navi 31 GCD 有多達 96 個 CU,這是典型的圖形處理發生的地方。但它的頂部和底部邊緣也有一個 Infinity Fabric(通過某種總線連接到芯片的其余部分),然后連接到 MCD。

MCD,顧名思義(Memory Cache Dies)主要包含大型 L3 緩存塊(Infinity Cache),以及物理 GDDR6 內存接口。它們還需要包含 Infinity Fabric 鏈接以連接到 GCD,您可以在沿著 MCD 面向中心的邊緣拍攝的芯片中看到這一點。

GCD 使用臺積電的 N5 節點,將 457 億個晶體管封裝到一個 300mm2 的芯片中。與此同時,MCD 建立在臺積電的 N6 節點上,每個芯片在尺寸僅為 37mm2 的芯片上封裝了 20.5 億個晶體管。高速緩存和外部接口是現代處理器中擴展性最差的一些元素,我們可以看到總體上 GCD 平均每 mm2 有 1.523 億個晶體管,而 MCD 平均只有 5540 萬個晶體管/mm2。

這里值得一提的是,雖然 Navi 31(可能還有 Navi 32)使用 GPU 小芯片,但最小的 Navi 33 裸片(用于Radeon RX 7600和其他移動 GPU)由構建在臺積電 N6 節點上的單片裸片組成。成本節約措施顯然是各種 RDNA 3 設計的主要因素。

AMD 的高性能扇出互連

GPU 上的小芯片方法的一個潛在問題是所有 Infinity Fabric 鏈路需要多少功率——外部芯片幾乎總是使用更多功率。例如,Zen CPU 有一個制造成本相對較低的有機基板中介層,但它消耗 1.5 pJ/b(每比特皮焦耳)。將其擴展到 384 位接口會消耗相當大的功率,因此 AMD 努力改進與 Navi 31 的接口。

63585cfc-08c5-11ee-962d-dac502259ad0.png

結果就是 AMD 所謂的高性能扇出互連。上圖并沒有把事情說清楚,但左邊較大的接口是 Zen CPU 上使用的有機基板互連。右邊是 Navi 31 上使用的高性能扇出橋,“大致按比例”。

636d7330-08c5-11ee-962d-dac502259ad0.png

您可以清楚地看到用于 CPU 的 25 根電線,而用于 GPU 的 50 根電線被擠在一個小得多的區域中,因此您甚至看不到單獨的電線。對于相同的目的,它大約是高度和寬度的 1/8,這意味著大約是總面積的 1/64。這反過來又大大降低了功耗要求,AMD 表示,所有 Infinity Fanout 鏈接組合起來可提供 3.5 TB/s 的有效帶寬,而僅占 GPU 總功耗的不到 5%。

6380c7be-08c5-11ee-962d-dac502259ad0.png63aeb7be-08c5-11ee-962d-dac502259ad0.png646e8b34-08c5-11ee-962d-dac502259ad0.png

這里有一個有趣的地方:GCD 和 MCD 上的所有 Infinity Fabric 邏輯都占用了相當大的裸片空間。從裸片照片來看,GCD 上的六個 Infinity Fabric 接口使用了大約 9% 的裸片面積,而這些接口大約占 MCD 上總裸片尺寸的 15%。

64a29406-08c5-11ee-962d-dac502259ad0.png

去掉 Infinity Fabric 接口并將整個芯片構建為臺積電 N5 節點上的單片部件,它的尺寸可能只有 ~400mm2。顯然,臺積電 N5 的成本遠高于 N6,因此值得采用小芯片路線,這說明了較小制造節點的成本不斷增加。要么是這樣,要么是 AMD 正在為未來設計架構,現在接受打擊并希望以后獲得更大的收益。

64c72f5a-08c5-11ee-962d-dac502259ad0.png

與此相關,我們知道芯片設計的某些方面可以隨著工藝的縮小而更好地擴展。外部接口——比如 GDDR6 物理接口——幾乎停止了擴展。緩存的擴展性也很差。有趣的是,AMD 的下一代 GPU(Navi 4x / RDNA 4)是否會利用與 RDNA 3 相同的 MCD,同時將 GCD 轉移到 N3 等未來的臺積電節點。

AMD RDNA 3 架構升級

這涉及到設計的小芯片方面,所以現在讓我們來看看 GPU 各個部分的架構變化。這些可以大致分為四個方面:芯片設計的一般變化、GPU 著色器(流處理器)的增強、改進光線追蹤性能的更新以及矩陣運算硬件的改進。

65028f82-08c5-11ee-962d-dac502259ad0.png

查看原始規格,AMD 似乎并沒有將時鐘速度提高那么多,但之前我們只有游戲時鐘數據?,F在我們可以說加速時鐘更高了,在一般情況下,AMD 的 RDNA 3 GPU 甚至會超過官方的加速時鐘——換句話說,它們是保守的加速。

AMD 表示 RDNA 3 的設計可以達到 3 GHz 的速度。參考 7900 XTX / XT 上的官方升壓時鐘遠低于該標記,但我們也認為 AMD 的參考設計更側重于最大限度地提高效率。第三方 AIB 卡可以大大提高功率限制、電壓和時鐘速度。我們會看到 3 GHz 出廠超頻嗎?7900 系列沒有發生這種情況,但也許其他 GPU 中的一個會走那么遠。

根據 AMD 的說法,RDNA 3 GPU 可以在使用一半功率的情況下達到與 RDNA 2 GPU 相同的頻率,或者在使用相同功率的情況下達到 1.3 倍的頻率。最終,AMD 希望平衡頻率和功率以提供最佳的整體體驗。實際上,頂級 GPU 上的時鐘比上一代高幾百 MHz。

AMD 提出的另一點是,它已將硅利用率提高了約 20%。換句話說,RDNA 2 GPU 上有一些功能單元,其中部分芯片經常處于閑置狀態,即使在卡處于滿載狀態下也是如此。不幸的是,我們沒有直接衡量這一點的好方法,所以我們會接受 AMD 的話,但最終這應該會帶來更高的性能。

AMD RDNA 3 計算單元增強功能

在小芯片之外,許多最大的變化發生在計算單元 (CU) 和工作組處理器 (WGP) 中。其中包括對 L0/L1/L2 緩存大小的更新、用于 FP32 和矩陣工作負載的更多 SIMD32 寄存器,以及某些元素之間更廣泛和更快的接口。

6528f6cc-08c5-11ee-962d-dac502259ad0.png

AMD 的 Mike Mantor 展示了上面和下面的幻燈片,它們很密集!他基本上在一個小時的大部分時間里不停地講話,試圖涵蓋 RDNA 3 架構所做的一切,但時間遠遠不夠。上面的幻燈片涵蓋了全局概覽,但讓我們逐步了解一些細節。

65b67934-08c5-11ee-962d-dac502259ad0.png

RDNA 3 帶有增強的計算單元對——成為 RDNA 芯片主要構建塊的雙 CU。這與 RDNA 2 不同,但請注意調度程序和矢量 GPR(通用寄存器)的第一個塊表示“Float / INT / Matrix SIMD32”,然后是第二個塊表示“Float / Matrix SIMD32”。第二個塊是 RDNA 3 的新塊,它基本上意味著浮點吞吐量翻倍。

65e2d240-08c5-11ee-962d-dac502259ad0.png

您可以選擇以兩種方式之一查看事物:每個 CU 現在有 128 個流處理器(SP 或 GPU 著色器),并且您總共獲得 12,288 個著色器 ALU(算術邏輯單元),或者您可以將其視為 64”與上一代 RDNA 2 CU 相比,FP32 吞吐量恰好翻了一番。

6602a8c2-08c5-11ee-962d-dac502259ad0.png

這有點好笑,因為有些地方說 Navi 31 有 6,144 個著色器,而其他地方說有 12,288 個著色器,所以我特地問了 AMD 的首席 GPU 架構師和 RDNA 3 設計背后的主要負責人 Mike Mantor,它是否是 6,144或 12,288。他拿出計算器,敲了幾個數字,說:“嗯,應該是12288?!?然而,在某些方面,事實并非如此。

AMD 自己的規格說 7900 XTX 有 6,144 個 SP 和 96 個 CU,而 7900 XT 有 84 個 CU 和 5,376 個 SP,因此 AMD 正在采取使用較低數量的方法。但是,原始 FP32 計算(和矩陣計算)增加了一倍。就我個人而言,將其稱為每個 CU 128 個 SP 比 64 個更有意義,整體設計看起來類似于 Nvidia 的 Ampere 和 Ada Lovelace 架構?,F在每個流式多處理器 (SM) 有 128 個 FP32 CUDA 內核,還有 64 個 INT32 單元。但無論如何,AMD 并沒有使用更大的數字。

除了額外的 32 位浮點計算,AMD 還將矩陣 (AI) 吞吐量提高了一倍,并且 AI 矩陣加速器共享許多著色器執行資源。AI 單元的新功能是 BF16(大腦浮動 16 位)支持,以及 INT4 WMMA Dot4 指令(波形矩陣乘積),并且與 FP32 吞吐量一樣,矩陣運算速度整體提高了 2.7 倍。

這 2.7 倍似乎來自時鐘對時鐘性能的總體增長 17.4%,加上 CU 增加 20% 以及每個 CU 的 SIM32 單元增加一倍。

AMD RDNA 3:更大更快的緩存和互連

緩存以及緩存與系統其余部分之間的接口都已升級。例如,L0 緩存現在是 32KB(雙倍 于RDNA 2),L1 緩存是 256KB(又是雙倍于 RDNA 2),而 L2 緩存增加到 6MB(比 RDNA 2 大 1.5 倍)。

6644e5d4-08c5-11ee-962d-dac502259ad0.png

主處理單元和 L1 緩存之間的鏈接現在寬 1.5 倍,每個時鐘吞吐量為 6144 字節。同樣,L1 和 L2 緩存之間的鏈接也寬 1.5 倍(每個時鐘 3072 字節)。

L3 緩存,也稱為 Infinity Cache,相對于 Navi 21 確實縮小了?,F在是 96MB 對 128MB。然而,L3 到 L2 鏈路現在寬了 2.25 倍(每個時鐘 2304 字節),因此總吞吐量要大得多更高。事實上,AMD 給出了 5.3 TB/s 的數字——在 2.3 GHz 的速度下為 2304 B/clk。RX 6950 XT 只有 1024 B/clk 鏈接到其 Infinity Cache(最大值),RDNA 3 提供高達 2.7 倍的峰值接口帶寬。

請注意,這些數字僅適用于 7900 XTX 中完全配置的 Navi 31 解決方案。7900 XT 有五個 MCD,下降到 320 位 GDDR6 接口和 1920 B/clk 鏈接到組合的 80MB Infinity Cache。我們將自然而然地看到較低層級的 RDNA 3 部件,它們會進一步縮減接口寬度和性能。

最后,現在有多達六個 64 位 GDDR6 接口,用于連接到 GDDR6 內存的組合 384 位鏈接。VRAM 的時鐘頻率也為 20 Gbps(后來的 6x50 卡為 18 Gbps,原始 RDNA 2 芯片為 16 Gbps),總帶寬為 960 GB/s。

有趣的是,這一代 GDDR6 和 GDDR6X 之間的差距縮小了多少,至少在出貨配置方面是這樣。AMD 在 RX 7900 XTX 上的 960 GB/s 僅比現在 RTX 4090 的 1008 GB/s 低 5%,而 RX 6900 XT 和 RTX 3090 僅比 Nvidia 的 936 GB/s 高 512 GB/s?;氐?2020 年。Nvidia 當然也采用了更大的緩存大小及其Ada Lovelace 架構。

AMD RDNA 3:第二代光線追蹤

RDNA 2 架構上的光線追蹤總是感覺像是事后才想到的——為了滿足 DirectX 12 Ultimate 所需的功能清單而附加的東西。AMD 的 RDNA 2 GPU 缺乏專用的 BVH 遍歷硬件,選擇通過其他共享單元來完成這項工作,這至少部分歸咎于它們較弱的 RT 性能。

6673c2dc-08c5-11ee-962d-dac502259ad0.png

RDNA 2 射線加速器每個時鐘最多可以進行四次射線/盒子相交,或一次射線/三角形相交。相比之下,英特爾的 Arc Alchemist 每個時鐘每個 RTU 最多可以進行 12 次射線/盒子交叉,而 Nvidia 沒有提供具體數字,但在 Ampere 上每個 RT 內核最多可以進行 2 次射線/三角形交叉,最多可以進行 4 次射線/Ada Lovelace 上每個時鐘的三角形交叉點。

66aea820-08c5-11ee-962d-dac502259ad0.png

目前尚不清楚 RDNA 3 是否真的直接改進了這些數字,或者 AMD 是否專注于其他增強功能以減少執行的光線/盒子相交的數量。也許兩者都有。我們所知道的是,RDNA 3 將改進 BVH(邊界體積層次)遍歷,這將提高光線追蹤性能。

6721a186-08c5-11ee-962d-dac502259ad0.png

RDNA 3 還具有大 1.5 倍的 VGPR(矢量通用寄存器),這意味著飛行中的射線數量增加了 1.5 倍。還有其他堆棧優化可以減少 BVH 遍歷所需的指令數量,并且可以使用專門的框排序算法(最接近優先、最大優先、最接近中點)來提取提高的效率。

總的來說,由于新功能、更高的頻率和更多的射線加速器數量,AMD 表示與 RDNA 2 相比,RDNA 3 的射線追蹤性能應該提高 1.8 倍。這應該會縮小 AMD 和 Nvidia Ampere 之間的差距。盡管如此,Nvidia 似乎還在 Ada Lovelace 的光線追蹤硬件上加倍投入,因此我們不會指望 AMD 能夠提供與 RTX 40 系列 GPU 相當的性能。

AMD RDNA 3:其他架構改進

最后,RDNA 3 調整了與命令處理器、幾何形狀和像素管道相關的架構的其他元素。還有一個新的雙媒體引擎,支持 AV1 編碼/解碼、AI 增強視頻解碼和新的 Radiance 顯示引擎。

678a1ee6-08c5-11ee-962d-dac502259ad0.png

命令處理器 (CP) 更新應提高某些工作負載的性能,同時減少驅動程序和 API 端的 CPU 瓶頸?;谟布奶蕹阅茉谑挛锏膸缀畏矫嬉部炝?50%,并且每個時鐘的峰值光柵化像素增加了 50%。

最后一個似乎是將 Navi 21 上的 ROP(渲染輸出)數量從 128 個增加到 Navi 31 上的 192 個的結果。這是有道理的,因為內存通道也增加了 50%,AMD 希望擴展其他元素與此同步。

雙媒體引擎應該使 AMD 在視頻方面與 Nvidia 和 Intel 持平,盡管我們最近的視頻編解碼器質量和性能測試表明它仍然落后于 Intel 和 Nvidia。另請注意,AV1 更多的是關于擺脫 HEVC 的版稅,而不是提高質量,盡管性能可能有點不確定。

AMD 還因為包含對 DisplayPort 2.1 的支持而獲得了至少幾點。英特爾的 Arc GPU 也支持 DP2,但最高可達 40 Gbps (UHBR 10),而 AMD 可以達到 54 Gbps (UHBR 13.5)。AMD 的顯示輸出可以在 229 Hz 下驅動高達 4K,無需壓縮 8 位色深,或 187 Hz 10 位色。Display Stream Compression 可以將其提高一倍以上,允許 4K 和 480 Hz 或 8K 和 165 Hz——并不是說我們離擁有實際支持這種速度的顯示器還差得很遠。

實際上,我們不得不懷疑 DP2.1 UHBR 13.5 對 RDNA 3 顯卡的重要性。首先,您需要一臺支持 DP2.1 的新顯示器,其次,問題是 4K 180 Hz 之類的東西在使用和不使用 DSC 時看起來有多好——因為 DP1.4a 仍然可以使用 DSC 處理該分辨率,而 UHBR 13.5 可以在沒有 DSC 的情況下完成。我們一直在使用三星 Odyssey Neo G8 32 英寸顯示器,通過 DSC 支持 4K 240 Hz,并且沒有發現任何質量下降。

AMD RDNA 3:結語

總的來說,這聽起來像是一項令人印象深刻的工程壯舉。

AMD 可以很好地與 Nvidia 的 RTX 4080 卡競爭,至少在非光線追蹤和非 AI 工作負載方面是這樣。另一方面,如果您想要最快的 GPU,AMD 甚至不會嘗試與更大的RTX 4090正面交鋒。

簡單的數學提供了大量的思考。FP32 6,144 個著色器以 2.5 GHz 運行,ALU 吞吐量翻倍,而 Nvidia 的 16,384 個著色器以 2.52 GHz 運行,Nvidia 顯然具有原始計算優勢——61 teraflops 對比 83 teraflops。如前所述,添加更多 FP32 單元使 AMD 的 RDNA 3 看起來更像 Ampere 和 Ada Lovelace。

除了原始計算,我們還有晶體管數量和芯片尺寸。Nvidia 堅持為 Ada Lovelace 使用單片芯片,包括 AD102、AD103、AD104、AD106 和 AD107 芯片。最大的一個在 608mm2芯片中有 763 億個晶體管。即使 AMD 正在開發具有 580 億個晶體管的單片 522mm2芯片,我們也希望 Nvidia 具有一些優勢。然而,GPU 小芯片方法意味著一些區域和晶體管被用于與性能不直接相關的事情。

與此同時,Nvidia 的倒數第二個 Ada 芯片,即RTX 4080 中使用的 AD103 ,落在了柵欄的另一邊。憑借 256 位接口、459 億個晶體管和 368.6mm2裸片尺寸,Navi 31 應該具有一些明顯的優勢——無論是 RX 7900 XTX 還是稍低一些的 7900 XT。然后是具有 358 億個晶體管和 294.5mm2裸片的 AD104,即“未發布”的 RTX 4080 12GB,最終演變為 RTX 4070 Ti。

但性能比紙面規格更重要。Nvidia 將晶體管投入到 DLSS(張量核心)、DLSS 3(光流加速器)和光線追蹤硬件等功能中。AMD 似乎更愿意放棄一些光線追蹤性能,同時提升更常見的用例。實際上,在我們的GPU 基準測試層次結構中,RX 7900 XTX 在光柵化性能方面幾乎領先于 RTX 4080 ,而在光線追蹤性能方面,它更接近于上一代RTX 3090。

對于那些對價格在 900 美元或以上的顯卡不感興趣的人,還有RTX 4070 Ti、RTX 4070、RTX 4060 Ti和RX 7600等顯卡. 我們仍在等待 AMD 的 RX 7800 和 7700 產品,這可能會在 AMD 等待清理剩余的 Navi 2x 庫存時推遲。據傳,Navi 32 使用相同的 MCD,但具有更小的 GCD,而 Navi 33 已經作為仍然構建在 N6 節點上的單片芯片推出。




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • CCD
    CCD
    +關注

    關注

    32

    文章

    845

    瀏覽量

    141440
  • gpu
    gpu
    +關注

    關注

    27

    文章

    4478

    瀏覽量

    127194
  • GCDM
    +關注

    關注

    0

    文章

    4

    瀏覽量

    2108
  • RDNA
    +關注

    關注

    0

    文章

    19

    瀏覽量

    1850

原文標題:AMD帶領GPU進入Chiplet時代,RDNA 3架構深入解讀

文章出處:【微信號:Hack電子,微信公眾號:Hack電子】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AMD RDNA4顯卡全部搭載18Gbps顯存,帶寬略遜于部分RDNA3產品

    現行的零售版RadeonRX7900XT、7900XT搭載的是20Gbps的GDDR6顯存,而RX7800XT則采用了19.5Gbps的顯存。因此,RDNA4顯卡的顯存速度可能不及部分RDNA3產品,與RX7900GRE、RX7700XT及以下型號保持一致。
    的頭像 發表于 04-23 16:37 ?347次閱讀

    AMD推出銳龍8000嵌入式處理器,AI算力高達39 T

    此款CPU選用4納米制程、AMD基于“Zen 4”架構的CPU核心以及使用RDNA 3架構GPU和XDNA
    的頭像 發表于 04-03 10:39 ?387次閱讀

    AMD Zen6架構繼續飛躍!核顯跨越下下代RDNA5

    AMD的下一代Zen5 CPU架構還沒來,Zen6的消息就已經多次傳出,現在又提到了所集成的GPU核顯,居然將會搭配同樣下下一代的RDNA5。
    的頭像 發表于 02-22 09:53 ?393次閱讀
    <b class='flag-5'>AMD</b> Zen6<b class='flag-5'>架構</b>繼續飛躍!核顯跨越下下代<b class='flag-5'>RDNA</b>5

    基于Zen 4的銳龍8000G系列桌面處理器

    銳龍8000G系列桌面處理器的最高AI性能算力可達39TFLOPS,同時它還集成了基于RDNA3 GPU架構的顯示核心。
    發表于 01-09 12:09 ?328次閱讀
    基于Zen 4的銳龍8000G系列桌面處理器

    深入解讀AMD最新GPU架構

    GCN 取代了 Terascale,并強調 GPGPU 和圖形應用程序的一致性能。然后,AMD 將其 GPU 架構開發分為單獨的 CDNA 和 RDNA 線路,分別專門用于計算和圖形。
    發表于 01-08 10:12 ?612次閱讀
    <b class='flag-5'>深入</b><b class='flag-5'>解讀</b><b class='flag-5'>AMD</b>最新<b class='flag-5'>GPU</b><b class='flag-5'>架構</b>

    AMDGPU架構GCN現代化解讀

    隨著HD 5000和6000系列的發展,AMD的Terascale(萬億級)架構變得非常具有競爭力。
    的頭像 發表于 01-08 09:58 ?543次閱讀
    <b class='flag-5'>AMD</b>的<b class='flag-5'>GPU</b><b class='flag-5'>架構</b>GCN現代化<b class='flag-5'>解讀</b>

    AMD突然改主意:銳龍7000G APU沒了!銳龍8000G來了!

    銳龍8000G系列將有兩種不同核心芯片,其中銳龍3 8300G、銳龍5 8500G采用小號的Phoenix2,Zen4+Zen4c兩種核心,分別是1+3 4核心8線程、2+4 6核心12線程,都有4個RDNA3架構GPU核心。
    的頭像 發表于 11-10 16:59 ?782次閱讀
    <b class='flag-5'>AMD</b>突然改主意:銳龍7000G APU沒了!銳龍8000G來了!

    三星Exynos 2400芯片亮相:CPU快70%,AI性能提高至14.7倍

    三星表示,exynos 2400具有最新amd rdna3架構的xclipse 940 gpu。該芯片展示了大幅提高的light traking功能,期待通過全域照明、反射、陰影渲染等
    的頭像 發表于 10-08 11:34 ?580次閱讀

    重磅!AMD GPU頭號負責人宣布離職

    Scott Herkelman表示,在AMD工作了七年并推出了三代競爭力日益增強的RDNA圖形架構后,他決定在今年年底離開AMD。Scott Herkelman沒有提及他此時離開
    的頭像 發表于 09-27 16:44 ?445次閱讀
    重磅!<b class='flag-5'>AMD</b> <b class='flag-5'>GPU</b>頭號負責人宣布離職

    BM1684架構介紹

    一、概述 一圖勝千言,先po一張架構圖,如下所示: 二、TPU架構 2.1 DTCM DTCM是TPU內部的MCU ARM9的高速緩存空間(512KB),類似于CPU中的L1
    發表于 09-19 08:11

    Gaudi2架構和軟件的全面解釋

    ,Gaudi2以其架構為基礎,為數據中心和云的深度學習帶來了新的性能和效率。 Gaudi2由SynapseAI?軟件套件支持,該軟件套件與TensorFlow和PyTorch框架集成。我們在哈瓦那的GitHub
    發表于 08-04 06:15

    基于磁貼的GPU架構優缺點

    本指南介紹了基于磁貼的GPU架構的優缺點。它還將ARM馬里基于瓷磚的GPU架構設計與臺式PC或控制臺中常見的更傳統的即時模式GPU進行了比較
    發表于 08-02 12:54

    AMD將于今年秋季在部分RDNA 3 GPU上添加ROCm的支持

    ? AMD將于今年秋季在部分RDNA 3 GPU上添加ROCm的支持 ? 人工智能是塑造下一代計算的決定性技術。近幾個月來,我們都看到了生成式人工智能和大語言模型的爆炸式增長正在徹底改變我們與技術
    的頭像 發表于 07-25 15:40 ?541次閱讀

    AMD銳龍8000 APU浮出水面:Zen5、RDNA3.5絕配

    按照慣例,AMD將在明年初發布銳龍8000系列移動處理器,工藝、架構都會有全面提升,其中CPU用上Zen5、Zen5c的大小核組合,GPU則升級為RDNA3.5。
    發表于 07-18 09:28 ?729次閱讀
    <b class='flag-5'>AMD</b>銳龍8000 APU浮出水面:Zen5、<b class='flag-5'>RDNA</b>3.5絕配

    AMD CEO蘇姿豐如何帶領AMD起死回生

    在分享蘇姿豐如何帶領AMD起死回生,甚至超車頭號競爭對手英特爾的故事之前,先來聊聊她的成長故事。
    的頭像 發表于 06-19 15:37 ?2532次閱讀
    <b class='flag-5'>AMD</b> CEO蘇姿豐如何<b class='flag-5'>帶領</b><b class='flag-5'>AMD</b>起死回生
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>