0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區
會(huì )員中心
創(chuàng )作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內不再提示

Arm微架構分析系列—Arm的X計劃

冬至子 ? 來(lái)源:內核工匠 ? 作者:Rockie ? 2023-11-28 17:02 ? 次閱讀

1. 引言

前文介紹了Arm公司近幾年在移動(dòng)處理器市場(chǎng)推出的Cortex-A系列處理器。Cortex-A系列處理器每年迭代,性能和能效不斷提升,是一款非常成功的產(chǎn)品。但是,Arm并不滿(mǎn)足于Cortex-A系列每年的架構小幅度升級,又推出了X計劃,也就是Cortex-X產(chǎn)品線(xiàn)。Cortex-X系列處理器采用了激進(jìn)的架構設計,大幅度提升移動(dòng)處理器的性能(俗稱(chēng)超級大核),本文將重點(diǎn)介紹Arm的Cortex-X系列產(chǎn)品。

2. X計劃起源

Cortex-X計劃起源可以追溯到2016年,當時(shí)Arm推出了一個(gè)新的客戶(hù)Licence叫做“Build on Cortex”,允許用戶(hù)請Arm基于Cortex核心做一些定制優(yōu)化,如可以增加或者減少Cache數量等,客戶(hù)如高通公司一直是該計劃的使用方,用于開(kāi)發(fā)和迭代每年的Kyro系列處理器。到了2020年,Arm公司正式宣布推出Cortex-X這一全新的高性能處理器設計計劃。Cortex-X計劃的目標是為高端移動(dòng)平臺、云服務(wù)場(chǎng)景、邊緣計算和高性能計算設備提供更快、更強大的處理器核心。

Cortex-X系列定制處理器計劃,相比2016年的定制方案要更加深入,Cortex-X系列處理器的目標是給用戶(hù)提供足夠強大性能的核心,在此計劃下芯片廠(chǎng)商可以早期參與Arm的Cortex處理器架構設計,并基于 Cortex-X 核心進(jìn)行定制優(yōu)化,以適應自己的產(chǎn)品需求。但是從產(chǎn)品的表現看,由于A(yíng)rm每年都在迭代Cortex-X系列處理器(2023,第四年,預計會(huì )更新Cortex-X4),迭代速度和周期都非???,芯片廠(chǎng)商并沒(méi)有針對X系列處理器特殊定制微架構,而是通過(guò)搭配不同尺寸的緩存,設計出面向不同價(jià)位段的產(chǎn)品。

Cortex-X系列的出現,和市場(chǎng)競爭日益激烈,芯片廠(chǎng)商有較強需求相關(guān)。市場(chǎng)上,蘋(píng)果公司堅持自己研發(fā)A系列處理器, 蘋(píng)果的A系列處理器是專(zhuān)為iPhone和iPad設備設計的自研處理器,基于A(yíng)rm指令集,蘋(píng)果自己設計并優(yōu)化了微架構。從2010年推出的A4處理器開(kāi)始推出第一款量產(chǎn)產(chǎn)品,當前蘋(píng)果A系列處理器已發(fā)展到A16(2022年)。A系列處理器一直采用較為激進(jìn)的微架構設計,通過(guò)強大的計算能力領(lǐng)先行業(yè)。最新A16還是保持Armv8指令集,沒(méi)有升級到Armv9指令集,最后我們會(huì )簡(jiǎn)單對比下Cortex-X系列和蘋(píng)果的A系列處理器的差異。

image.png

2017年至2022年的Arm系列處理器

3. Cortex-X1:第一代Cortex-X處理器

2020年5月,Arm發(fā)布了基于A(yíng)rmv8.2架構的最后一款處理器Cortex-A78,同時(shí)還發(fā)布了一顆性能更強大的Cortex-X1處理器。Cortex-X1 處理器比之前的 Cortex-A77 提升了 30% 的性能,由于采用大緩存的設計架構,還提升了 23% 的芯片能效。簡(jiǎn)單總結下,X1提供了更強的性能,整體更優(yōu)秀的能效,但是極限功耗高于Cortex-A78。

image.png

Cortex-X1性能強大,能效有明顯改善,但是由于增大了緩存和處理單元,使得芯片的整體面積增大不少,廠(chǎng)商往往出于成本考慮,一般在處理器中只會(huì )放置一顆Cortex-X系列處理器來(lái)提升單線(xiàn)程的峰值性能。從Cortex-X1出現后,市場(chǎng)上的旗艦處理器架構發(fā)生了變化,逐步從4+4架構,演變成有一個(gè)超級大核心的1+3+4架構。

下圖是一個(gè)典型示意圖,在5nm工藝下如果僅升級到A78,性能提升20%,面積可以減少15%;在5nm工藝下升級到1個(gè)X1+3個(gè)A78,L3增大,峰值性能可以提升30%,但是面積要增加15%,一來(lái)一回差異30%芯片面積,這樣看來(lái),旗艦芯片要漲價(jià)也情有可原了。

image.png

image.png

我們看一下Cortex-X1的微架構細節,相比A78,Cortex-X1具體有以下提升:

1、BPU分枝預測單元的L0 BTB從64提升到96,增加50%;

2、前端Decode從4路提升到5路;

3、MOP通路從6路提升到8路;

4、MOP Cache從1.5K提升到3K,增大一倍;

5、ROB緩沖從160(推測)提升到224(參考,AMD的Zen2處理器的ROB是224);

6、L1L2L3都較大,分別是64KB起、256KB起、最多8MB;

7、執行單元整數和存儲部分變化不大,浮點(diǎn)單元相比A78提供了2倍的NEON單元,可以同時(shí)提供4個(gè)128bit運算能力;

8、存儲單元通路雖然沒(méi)有變化,但是其LoadStore的緩沖數量增加了33%。

下面用一張表格列舉了一些微架構的核心變化:

image.png

第一代的Cortex-X1還是使用的Armv8.2的指令集,并沒(méi)有升級到Armv9,似乎Arm覺(jué)得要在2021年同時(shí)發(fā)布Armv9和全新的Cortex-A、Cortex-X系列壓力有點(diǎn)大,所以提前將Cortex-X1的發(fā)布放在了2020年。

可惜,Cortex-X1的命運可謂生不逢時(shí),2020年采用Cortex-X1的典型旗艦處理器有三星的Exynos 2100和高通的Snapdragon 888,這兩款處理器都搭載了三星的5nm工藝(5LPE),這一次三星工藝翻車(chē)了,架構的提升得不到工藝的補償,導致這兩款處理器的性能和功耗的表現都不是很好。目前(2023年)市面上還活躍著(zhù)不少采用A78處理器架構的芯片,如MTK的天璣8100、8200等處理器,但是已經(jīng)鮮少看到搭載Cortex-X1處理器的芯片了。

4. Cortex-X2:第二代Cortex-X處理器

2021年5月,Arm的Cortex-X2系列處理器如期而至。這一次,Cortex-X2正式升級到了Armv9新架構,搭載了SVE2指令集,并且只支持運行64bit軟件。還記得A710的產(chǎn)品代號叫做Matterhorn么?這一代Arm為了更好的記憶產(chǎn)品代號,將Cortex-X2處理器的產(chǎn)品代號命名為Matterhorn-ELP,后續Cortex-X系列應該也是基于同期Cortex-A系列的產(chǎn)品代號,增加ELP后綴,ELP的全稱(chēng)是Enhanced Lead Partner的意思。

第一代的Cortex-X1由于搭配工藝的原因導致整體不佳的表現并沒(méi)有掩埋Cortex-X系列微架構的成功,Arm計劃將Cortex-X系列發(fā)揚光大,后續我們看到的也是每年一更新的快速迭代節奏。如此快速的更新節奏,芯片廠(chǎng)商也很難深度定制,后續各大廠(chǎng)商發(fā)布的幾款采用Cortex-X系列處理器的產(chǎn)品,還是采用了Arm的公版架構,基于產(chǎn)品的價(jià)位段,在Cache容量上做一些差異化的配置。

image.png

從上圖中可見(jiàn),Arm對于兩個(gè)系列的策略有所不同,Cortex-A系列主打均衡能效并小幅度改善性能 ,Cortex-X2相比Cortex-X1在性能上有更明顯的提升,進(jìn)一步拉開(kāi)了A系列和X系列的性能差距,由此可見(jiàn)Cortex-X系列的目標是推進(jìn)Arm核心架構的算力提升和突破。

image.png

從互聯(lián)網(wǎng)上可以找到Cortex-X2的微架構框圖,我們可以此對比Cortex-X2和Cortex-X1的微架構差異,并分析影響性能提升的因素。Cortex-X2相比Cortex-X1,在微架構上有以下變化:

1、將分支預測和Fetch解耦,提升并行度;

2、指令流水線(xiàn)從11級減少到10級,dispatch從2個(gè)時(shí)鐘周期減少到1個(gè)時(shí)鐘周期;

3、ROB緩沖從224提升到288,提升了30%;

4、支持SVE2 SIMD指令集;

5、ML能力支持Bfloat16;

6、取消了Aarch32支持;

7、LoadStore結構體緩沖提升33%;

8、d-TLB從40提升到48,提升了20%;

image.png

再來(lái)看看具體性能數據,Arm宣稱(chēng)Cortex-X2相比Cortex-X1在整數性能上提升了16%,在ML能力上提升了2倍?;仡櫼幌翧710,Arm宣稱(chēng)的數據是相比A78提升了10%的整數性能。從能效曲線(xiàn)上看,Cortex-X2的最大性能和功耗都有增加,能效在低頻率區間和Cortex-X1差異不大,在中高頻率區間相比Cortex-X1有改善。由于極限功耗持續增加,對于散熱能力和發(fā)熱策略改善提出了更大的訴求和壓力。

2021年,第一代搭載了Cortex-X2的處理器高通8Gen1,由于采用了三星4nm LPX工藝,性能功耗的表現不是很理想,后續高通將工藝切換到臺積電4nm工藝,在2022年推出了同樣設計的8+Gen1處理器,宣稱(chēng)CPU功耗降低了30%,這才發(fā)揮出了Cortex-X2的實(shí)力,目前有多部熱門(mén)手機搭載,當前也是Cortex-X系列產(chǎn)品中賣(mài)的最好一代。

5. Cortex-X3:第三代Cortex-X處理器

2022年6月,市場(chǎng)上還在關(guān)注升級新工藝的Cortex-X2系列處理器產(chǎn)品時(shí),Arm發(fā)布了當年的新品Cortex-X3,Cortex-X3的代號是Makalu-ELP,和同期Coretex-A715的代號Makalu保持一致。2021年的Cortex-X2肩負著(zhù)升級Armv9指令集的任務(wù),在微架構上的修改上相比第一代并不是很多。新一代的Cortex-X3在微架構上的升級和變化要更多一些,后續我們會(huì )詳細分析。性能上,Arm宣稱(chēng)Cortex-X3在性能相比上一代IPC提升11%,綜合性能有22%的提升(包含工藝的提升)。

image.png

從Cortex-X2開(kāi)始,X系列處理器就不再支持32bit應用,這一代Arm繼續針對64bit進(jìn)行微架構的優(yōu)化,通過(guò)剔除和優(yōu)化一些陳舊的32bit兼容設計,進(jìn)一步提升64bit應用程序的執行效率。

下面我們具體看一下Cortex-X3微架構相比上一代的變化:

1、MOP Cache尺寸變化。隨著(zhù)半導體工藝的持續演進(jìn),接下來(lái)的3nm新工藝將繼續縮小半導體器件的尺寸,但是,在半導體中SRAM的尺寸并沒(méi)有隨器件尺寸縮小而同步縮小。如何減少SRAM的占用,是對先進(jìn)工藝設計提出的一個(gè)考驗。在Cortex-X3的前端設計中,Arm將L0的MOP Cacha的SRAM從上一代的3K減少到1.5K,推測也是為了減少未來(lái)在先進(jìn)工藝中SRAM的占比。同時(shí),Arm提出通過(guò)優(yōu)化Cache的填充算法,來(lái)做到盡量不影響性能。記得MOP Cache在A(yíng)77引入時(shí)就有討論過(guò),1.5K的容量就可以達到85%的命中率,增加容量帶來(lái)的邊際效益也增加,所以增大Cache帶來(lái)的效果提升會(huì )越來(lái)越小,所以這次Arm將Cortex-X3的MOP Cache降低到1.5K(同期的A715則是取消了MOP Cache)。

2、Fetch-decode通路從5路提升到6路,Fetch能力提升了20%;

3、在ROB重排序緩沖區上,上一代Cortex-X2是228個(gè),Cortex-X3繼續提升11%,達到了320 entries;

image.png

4、Arm繼續提升Cortex-X3的分支預測能力,L1 BTB從64提升到96,L2 BTB從16384提升到24576。分支預測單元通過(guò)解耦合設計,和Fetch形成兩條核心指令通路,大幅提升同步執行效率,一旦發(fā)生了分支錯誤,可以快速從BTB緩沖中拿到需要的指令,進(jìn)行快速切換。通過(guò)這些優(yōu)化,Arm宣稱(chēng)平均分支預測延遲周期數減少了12.2%,整體執行流程中Stall占比降低了3%;

image.png

5、在分支預測模塊上持續優(yōu)化,Cortex-x3中為indirect branches新增了一個(gè)獨立預測單元,并提升了conditional branches的準確率,Arm宣稱(chēng)平均的分支預測錯誤率可以降低6.1%;

image.png

6、流水線(xiàn)的優(yōu)化,Cortex-X3繼續優(yōu)化了流水線(xiàn),從10級優(yōu)化到9級,主要是優(yōu)化了MOP Cache的讀取周期;

image.png

7、執行單元上,這次Cortex-X3大幅度提升了整型ALU的數量,從4個(gè)提升到6個(gè),是一個(gè)比較大的變化,整體從2個(gè)branch+2個(gè)ALU變化為2個(gè)branch+4個(gè)ALU,主要是提升了整型性能;

image.png

8、訪(fǎng)存單元上,因為提升了ALU的數量,相應的整型讀取帶寬也從24提升到了32,并且增加了兩個(gè)額外的數據預取模塊。

image.png

上面是Cortex-X3的微架構框圖,我們把X1至X3放在同一張表中對比:

image.png

6、Cortex-X3和蘋(píng)果處理器的對比

image.png

Cortex-X系列處理器通過(guò)三代的迭代,不斷升級微架構提升性能,其單核心有明顯提升,已經(jīng)在拉近蘋(píng)果A系列處理器和Intel臺式機處理器的差距。圖中對比了不同處理器的單核心的性能,可以看到Cortex-X3相比Cortex-X2有進(jìn)一步的提升,距蘋(píng)果的A15處理器還有一些差距。目前我還沒(méi)有找到蘋(píng)果A15處理器的微架構,但是有找到2020年A14處理器大核心(Firestorm)的微架構,下面通過(guò)表格做了一個(gè)對比。

image.png

從Cortex-X系列和蘋(píng)果A14的對比可以看出,蘋(píng)果在設計A系列處理器時(shí)對于微架構的調整更加激進(jìn),采用了更大的L1、L2緩存,Decoder數量更多,而ROB緩沖的尺寸幾乎是Cortex-X系列的一倍,這也對于指令重排序的效率和算法優(yōu)化能力提出了更高的要求。

雖然Cortex-X系列每年迭代,相比蘋(píng)果的A系列激進(jìn)的設計,目前還存在一定的差距。但是隨著(zhù)Cortex-X系列處理器的每年迭代更新,我們也希望看到在微架構能力上打平甚至超過(guò)競品的那一天。

由于蘋(píng)果在A(yíng)系列處理器采用大緩存大尺寸設計,在智能手機產(chǎn)品中一般是放置兩顆大核心,采用2+4的架構。采用Cortex-X系列處理器的安卓手機,一般采用八核心的架構,例如最新的高通8Gen2處理器,采用1個(gè)Cortex-X3+2個(gè)A715+2個(gè)A710+3個(gè)A510的組合架構,提供了5個(gè)大核心的算力,在多核心算力上相比6核心有多2個(gè)核心的優(yōu)勢,一定程度上彌補了多核心的差距。

7、總結和對Cortex-X4處理器的期望

距2023年中Arm發(fā)布Cortex-X4處理器的時(shí)間不遠了,下一代的Cortex-X4處理器的代號叫做Hunter-ELP,期望這一代的“獵人”能給我們帶來(lái)更多的驚喜,新的架構改了什么地方,有多少性能提升,我也會(huì )第一時(shí)間關(guān)注和分享。

Arm公司通過(guò)三年時(shí)間迭代Cortex-X系列處理器,每年的性能上都有兩位數的提升,切實(shí)讓消費者使用上了更快更強的處理器和產(chǎn)品,這半年來(lái),采用Cortex-X2和Cortex-X3系列架構的高通8+Gen1、8Gen2、MTK的天璣9200等處理器的市場(chǎng)口碑都很不錯。

此外,高通的8Gen2處理器還第一次打破了傳統4顆大核心的架構,提供了1+4+3的5顆大核心配置組合。期望未來(lái)的產(chǎn)品不但可以看到Arm的最新架構,而且可以看到更多有意思的CPU核心架構組合,如果可以在一個(gè)處理器中放置多顆Cortex-X核心,相信基于Cortex-X系列的Arm處理器也可以挑戰蘋(píng)果 A系列處理器綜合性能。

聲明:本文內容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權轉載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習之用,如有內容侵權或者其他違規問(wèn)題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    18565

    瀏覽量

    224118
  • 緩沖器
    +關(guān)注

    關(guān)注

    6

    文章

    1775

    瀏覽量

    45016
  • ARM處理器
    +關(guān)注

    關(guān)注

    6

    文章

    351

    瀏覽量

    41395
  • Cortex-A
    +關(guān)注

    關(guān)注

    0

    文章

    19

    瀏覽量

    34213
收藏 人收藏

    評論

    相關(guān)推薦

    Energy Micro被ARM公司選為其ARM Cortex M系列處理器MCU大學(xué)計劃的合作伙伴

    節能微控器和無(wú)線(xiàn)射頻供應商 Energy Micro被ARM公司選為其專(zhuān)注于ARM Cortex?-M系列處理器的大學(xué)計劃的合作伙伴,這也使得有著(zhù)較長(cháng)歷史的
    發(fā)表于 05-02 17:46 ?698次閱讀

    ARM架構的基礎知識

    ARM處理器使用精簡(jiǎn)指令集(RISC),ARM(Advanced RISC Machines)ARM是一家公司的簡(jiǎn)稱(chēng),其次ARM指一系列處理
    發(fā)表于 09-15 11:51 ?5153次閱讀

    [X86架構ARM架構,在工業(yè)領(lǐng)域的優(yōu)勢爭霸] X86與ARM誰(shuí)更勝...

    [X86架構ARM架構,在工業(yè)領(lǐng)域的優(yōu)勢爭霸]X86與ARM誰(shuí)更勝一籌?
    發(fā)表于 08-01 10:45

    x86架構arm架構的區別

    X86架構X86指令集,它屬于CISC指令集。ARM架構ARM指令集,屬于RISC指令集。
    發(fā)表于 09-27 14:40

    我對ARM架構的理解

    的核心都是由Arm內部設計的架構。Cortex-R系列,架構Armv7-R和Armv8-R,為高性能實(shí)時(shí)應用進(jìn)行了優(yōu)化。這些處理器有更好的
    發(fā)表于 09-03 17:56

    Cortex系列處理器是從ARM哪個(gè)架構開(kāi)始的?

    Cortex系列處理器是從ARM哪個(gè)架構開(kāi)始的?arm架構x86
    發(fā)表于 07-06 10:49

    ARM芯片架構

    Supervisor (svc) 模式Abort 模式未定義模式干預模式快速干預模式Hyp 模式ARM 寄存器ARM A系列ARM M 系列
    發(fā)表于 07-28 08:16

    x86/arm/mips各架構對比分析哪個(gè)好?

    x86/arm/mips各架構對比分析哪個(gè)好?
    發(fā)表于 10-21 06:39

    arm架構x86架構有什么區別是什么?

    Cortex系列處理器是從從ARM哪個(gè)架構開(kāi)始的?arm架構x86
    發(fā)表于 10-28 08:36

    SOC與架構架構與SOC有什么區別?

    讀書(shū)筆記 SOC與架構架構與SOC有什么區別?指令集和架構有什么關(guān)系?為什么Cortex-
    發(fā)表于 12-15 06:39

    ARM7和ARM9雙核平臺的技術(shù)分析

    ARM7和ARM9雙核平臺的技術(shù)分析 目前嵌入式系統教學(xué)平臺市場(chǎng)上的主導產(chǎn)品都是基于ARM7或ARM9
    發(fā)表于 01-21 09:30 ?808次閱讀

    什么叫arm架構_X86架構ARM架構有什么區別

    本文首先介紹了arm架構的概念,其次介紹了ARM架構圖與ARM的技術(shù)實(shí)現,最后介紹了X86架構
    發(fā)表于 04-24 08:45 ?8.6w次閱讀
    什么叫<b class='flag-5'>arm</b><b class='flag-5'>架構</b>_X86<b class='flag-5'>架構</b>與<b class='flag-5'>ARM</b><b class='flag-5'>架構</b>有什么區別

    ARM架構是什么 限制ARM對華為的影響

    成立于1990年,ARM是全球最大的移動(dòng)IP提供商,ARM本身是不制造計算機芯片的,主要是對外授權其半導體技術(shù),把相關(guān)技術(shù)和工具打包售賣(mài),而這個(gè)技術(shù)就是大名鼎鼎的ARM架構。高通驍龍處
    的頭像 發(fā)表于 08-14 15:29 ?7461次閱讀

    Arm架構科普解讀 Arm架構的底層邏輯和Arm架構的頂層設計

    本文主要探討了 Arm 架構的底層邏輯,介紹了Arm 架構的頂層設計;以處理器核心架構為基礎,以系統架構
    的頭像 發(fā)表于 02-06 05:33 ?5256次閱讀
    <b class='flag-5'>Arm</b><b class='flag-5'>架構</b>科普解讀  <b class='flag-5'>Arm</b><b class='flag-5'>架構</b>的底層邏輯和<b class='flag-5'>Arm</b><b class='flag-5'>架構</b>的頂層設計

    AMD計劃生產(chǎn)基于Arm架構的CPU

    英偉達已經(jīng)開(kāi)始設計基于 Arm 架構的 CPU。該處理器將運行微軟 Windows 操作系統。此外,AMD 也計劃生產(chǎn)基于 Arm 架構
    的頭像 發(fā)表于 10-27 10:53 ?776次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看