就在昨天AMD第二代線(xiàn)程撕裂者旗艦Threadripper 2990WX外觀(guān)正式解禁,AMD官網(wǎng)也揭露了其部分性能,得益于其擁有高達32個(gè)核心64個(gè)線(xiàn)程,Threadripper 2990WX輕松拿下了消費級市場(chǎng)CPU之王的頭銜,此前坐在王座上的i9-7980XE被輕松秒殺,可謂一時(shí)之間風(fēng)光無(wú)限。但俗話(huà)說(shuō)的好,現在有多風(fēng)光,以前就有多折墮(落魄的意思),AMD也不例外。就在2年以前,AMD還是一個(gè)被Intel無(wú)視的對手,產(chǎn)品性能與Intel有巨大的鴻溝,股價(jià)最低時(shí)僅為2美元出頭,瀕臨破產(chǎn)。AMD會(huì )這么落魄,其中一個(gè)很主要的原因是因為當年推出的Bulldozer,推土機處理器微架構。
就在前兩天,國外媒體ExtremeTech就總結了至今為止最糟糕的10款CPU,其中推土機(Bulldozer)進(jìn)入了前三甲的位置,由此可見(jiàn)推土機的失敗,是一個(gè)比較公認的事實(shí)。今天,在Threadripper 2990WX意氣風(fēng)發(fā)的日子,PConline曉邊就帶領(lǐng)大家回顧一下當初AMD這個(gè)失敗的架構,看看它從誕生到落幕,作為一個(gè)失敗者的故事。
推土機的誕生:背負復仇的使命AMD是一家富有冒險精神的公司,雖然他的營(yíng)收規模僅為Intel的1/10,但其敢于在在HT總線(xiàn)、DDR內存、多核處理器等技術(shù)做創(chuàng )新,本世紀初憑借K8架構,其處理器在ipc和效能上大幅領(lǐng)先奔騰4,在這段時(shí)間里Intel被AMD“教做人”。但Intel畢竟還是CPU界的大哥,豐厚的財力規模、海量的人才儲備、巨大的業(yè)界影響力和與OEM核心伙伴堅固的關(guān)系都成為Intel翻盤(pán)的資本。
當年P(guān)Conline對Core i系列做的評測
終于,在2006年,Core系列處理器一鳴驚人,首批推出的Core 2 Extreme 6800和Core 2 Duo E6300都顯示出了無(wú)與倫比的效能。不僅超越上代chanpin40%之多,在功耗發(fā)熱上的表現也讓人瞠目結舌,Intel的產(chǎn)品完成看一次華麗的逆襲。如果說(shuō)Core首批推出的處理器型號是為Intel吹響了反擊的號角,那么以Nehalem為架構的Core i系列處理器,則徹底奠定的Intel后來(lái)13年稱(chēng)霸CPU市場(chǎng)的基礎。
強大的Intel
2008年11月,Intel發(fā)布了Core i7 965E/920處理器,原生四核心,內部整合內存控制器、使用了打破內存帶寬傳輸瓶頸的QPI總線(xiàn)架構和HT超線(xiàn)程技術(shù),憑借異想天開(kāi)的Turbo睿頻加速技術(shù)將處理器的能耗比提高到了極致,酷睿處理器的發(fā)布是一個(gè)劃時(shí)代的改變,它令人信服的KO了AMD當時(shí)的K10架構處理器,逼迫對方只能依靠性?xún)r(jià)比或者“開(kāi)核”等騷操作才能在市場(chǎng)占據為數不多的份額。
嘗到成功的甜頭,AMD自然不會(huì )這么輕易接受失敗,為了改變市場(chǎng)局面,AMD傾盡全力的投入到下一代革命性架構的研發(fā)當中,并在2011年推出了第一代推土機處理器,但當時(shí)誰(shuí)也沒(méi)料到,推土機架構處理器的推出,是AMD在CPU市場(chǎng)徹底潰敗的開(kāi)始。
2推土機的架構:模塊化回頂部
推土機架構:尷尬的“革新者“CPU的微架構與制作工藝直接決定了CPU的效能,優(yōu)化微架構與更新制作工藝成為CPU廠(chǎng)商提升CPU效能的最重要途徑,推土機架構便是當年AMD嘔心瀝血做出的CPU微架構。
早期A(yíng)MD在宣傳推土機架構時(shí)提出了不少的創(chuàng )新點(diǎn),概括起來(lái)有1、全新模塊化設計,更高效、核心擴展更容易。2、32nm SOI制作工藝,功耗控制更為出色。3、全新多線(xiàn)程架構,多線(xiàn)程運算性能更強。4、指令4發(fā)射(K10只有3發(fā)射)與AVX指令,整數/浮點(diǎn)運算更強,單核心性能提升。5、第二代Turbo Core技術(shù),更好適應各種應用環(huán)境。
其中推土機架構的核心基礎和靈魂,就是模塊化設計。大家都知道傳統意義下CPU擁有更多的物理核心,性能會(huì )更強,但是成本也會(huì )更高,也因此Intel在酷睿處理器上應用了SMT技術(shù),也就是超線(xiàn)程。SMT可以讓一個(gè)CPU核心的多個(gè)線(xiàn)程共享資源并同步執行,硬件上幾乎不需要增加成本,不過(guò)效能肯定沒(méi)有更多的物理核心來(lái)的強。
AMD“推土機”微架構
AMD為了平衡成本和多線(xiàn)程效能的問(wèn)題,獨特的推出CMT技術(shù)。AMD在“推土機”上把兩個(gè)核心及相關(guān)單元封裝成一個(gè)模塊,兩個(gè)核心共用一個(gè)浮點(diǎn)運算單元,但每一個(gè)核心都有完整的整數運算單元,FX-8150由四模塊組成八核心,浮點(diǎn)單元實(shí)際上只有四個(gè),以往CPU是每個(gè)核心一個(gè)浮點(diǎn)單元的。這樣四核心由雙模塊組成,六核心由三模塊組成,如此類(lèi)推。采用模塊化設計的好處是可以減少冗余電路,堆砌CPU核心更容易,這在當時(shí)真的是一個(gè)天馬行空的創(chuàng )意。AMD把這個(gè)稱(chēng)為CMT物理多核,也因此,與其說(shuō)推土機的8核CPU叫8核處理器,筆者曉邊更愿意稱(chēng)它做4模塊8線(xiàn)程處理器,因為它每一個(gè)”核心“其實(shí)都是不完整的殘疾核心,并沒(méi)有單獨的浮點(diǎn)運算模塊,但這樣做的好處就是,CPU以相對較小的成本,獲得了8個(gè)完整的整數運算單元,高端處理器才擁有的8個(gè)線(xiàn)程。
AMD在推土機這樣設計,其實(shí)原因有三個(gè):其一是是他認為目前CPU中超過(guò)80%的運算都是整數運算,增加一個(gè)整數單元的好處是顯而易見(jiàn)的,用增加5%的核心面積的微小代價(jià)即可換來(lái)80%的整數性能提升,而浮點(diǎn)運算在未來(lái)則可以交給GPU負責,這樣更加高效。其二是在未來(lái),通用運算會(huì )持續向多線(xiàn)程發(fā)展,對線(xiàn)程的要求是無(wú)限的。其三是未來(lái)大幅提升CPU頻率是可以實(shí)現的,這可以彌補處理器單線(xiàn)程羸弱的問(wèn)題。
AMD的賭徒企業(yè)風(fēng)格在推土機的研發(fā)設計中體現的淋漓盡致,他在未來(lái)處理器發(fā)展方向上打了三個(gè)賭,可惜的是在當時(shí)沒(méi)有一個(gè)賭對了。
8核推土機架構
搭載四個(gè)模塊八個(gè)線(xiàn)程的高級桌面處理器有大量的整數線(xiàn)程富余,但大多數用戶(hù)的工作量仍然沒(méi)法被平均分配到八個(gè)線(xiàn)程上去(簡(jiǎn)單的說(shuō)就是大多數程序多線(xiàn)程優(yōu)化不好)。單線(xiàn)程的運行依舊占據了用戶(hù)絕大多數使用的使用場(chǎng)景。另一方面,浮點(diǎn)單元的共享意味著(zhù)充滿(mǎn)浮點(diǎn)算術(shù)的應用程序就沒(méi)有足夠的運行資源。雖然基于GPU的計算在一些特定工作中非常重要——比如科學(xué)超級計算——但主流應用程序還是更依賴(lài)CPU來(lái)做浮點(diǎn)運算。
推土機的架構帶來(lái)了處理器單核性能的倒退,甚至比不上自家上代六核旗艦Phenom II X6 1090T,更不要說(shuō)去和Intel當時(shí)的SNB處理器比劃了。而在A(yíng)MD的設想中單核性能的倒退能通過(guò)大幅提升處理器頻率改善,但是使用更落后的32nm制程的推土機處理器一味提升頻率,結果就是在功耗發(fā)熱方面成為大火爐(這種情況在打樁機時(shí)顯現的極致)。
推土機旗艦FX-8150
這樣的設計造成的另一個(gè)結果就是,最吃浮點(diǎn)運算性能和單核性能的大多數游戲表現中,推土機甚至不如”肥龍2“,只能在SNB處理器后面吃塵,這在DIY市場(chǎng)是致命的,畢竟大多數DIY玩家都是為了游戲才去玩DIY硬件。消費市場(chǎng)不買(mǎi)賬,口碑逐漸崩壞,推土機架構的結局似乎已經(jīng)可以預見(jiàn)。
3推土機的發(fā)展:農用機器系列處理器回頂部
打樁機:不屈的挑戰者但終成笑柄
AMD當時(shí)CPU的發(fā)展 路線(xiàn)圖
AMD在推出推土機架構處理器后,市場(chǎng)反饋并不太好,但這畢竟只是第一代,也可能是市場(chǎng)和軟件環(huán)境還沒(méi)適應這個(gè)處理器中的新物種。于是AMD在第二年便推出推土機小修小改的版本,Piledriver打樁機架構處理器。與推土機相比,同為是模塊化設計的“打樁機”核心改動(dòng)主要體現在:1、新增FMA3、AVX1.1和F16C等新指令集;2、強化電源管理,降低產(chǎn)品功耗;3、一級、二級緩存優(yōu)化;4、核心頻率提高,TDP保持不變。
其中最主要便是這功耗的優(yōu)化,這讓處理器在相同電壓下對比上一代有了10%左右的超頻空間。雖然當時(shí)以FX8350為代表的打樁機處理器使用的僅是格羅方德落后的32nm工藝打造,但得益于其設計較長(cháng)的流水線(xiàn),打樁機可以輕松超頻到4.5GHz以上,以至于當時(shí)坊間的A飯都戲謔的稱(chēng)”性能不夠,超頻來(lái)湊“,”超一下,又不是不能用“。為了把打樁機的性能發(fā)揮到極致,AMD當時(shí)甚至還推出了TDP高達220W,動(dòng)態(tài)頻率可達5.0GHz的核彈FX9590,但其可怕的功耗和散熱供電要求,以及5.0GHz的單核性能僅相當于3.8GHz左右時(shí)的i7-4770K單核性能,都成為這款處理器走向主流市場(chǎng),和讓消費者選擇它的掣肘。
FX9590僅僅是AMD發(fā)出不屈的怒吼,高頻的打樁機只能給AMD帶來(lái)大火爐的稱(chēng)號,但仍然改變不了推土機家族失敗的命運,最后落得個(gè)”i3默秒全“的恥辱性頭銜。
打樁機的失敗讓AMD清醒的認識了自己,至此AMD放棄了CPU高端市場(chǎng),轉而投身到另一個(gè)大坑異構運算的研發(fā)中(詳情可以點(diǎn)擊這里跳轉相關(guān)文章)。此后AMD推出的Steamroller壓路機、Excavator挖掘機都僅應用在A(yíng)PU和低端處理器型號身上,重點(diǎn)都是降低CPU的功耗,提高處理器的能耗比。雖然這些低端APU產(chǎn)品在市場(chǎng)獲得不少消費者青睞,但消費者選擇它的原因大都是因為其高性能的核顯,甚至民間不少網(wǎng)友笑稱(chēng)買(mǎi)APU是買(mǎi)GPU送CPU,買(mǎi)Intel的CPU則是買(mǎi)CPU送GPU。
AMD的CPU也在市場(chǎng)徹底失去了口碑,不管從市場(chǎng)還是性能表現等各個(gè)角度來(lái)講,推土機架構都是十分失敗的,甚至可以說(shuō)被釘在了CPU歷史的恥辱柱上,以至于直到今天AMD也不敢啟用曾經(jīng)象征AMD最高性能處理器的FX后綴,畢竟FX很容易讓人聯(lián)想到推土機系列處理器。
4推土機的影響:失敗是成功之母回頂部
模塊化設計:前人栽樹(shù)后人乘涼流傳比較廣的話(huà)語(yǔ)總是比較有道理,比如說(shuō)失敗乃是成功之母,又比如說(shuō)看數碼硬件資訊就來(lái)PConline。自推土機失敗以來(lái)AMD臥薪嘗膽,終于在2017年迸發(fā)出了令人驚訝的力量,在所有人事先不看好的情況下實(shí)現了逆襲,發(fā)布了媲美酷睿i系列處理器的銳龍系列處理器,彼時(shí),AMD自上一個(gè)巔峰已經(jīng)過(guò)去了13年之久。
ZEN架構
銳龍系列處理器,能一鳴驚人的原因,很大部分得益于的架構設計上還巧妙地采用了名為CCX(CPU Complex)的模塊化設計方案。模塊化這個(gè)字眼是不是很熟悉?你沒(méi)有看錯,模塊化的設計理念雖然是推土機失敗的根本原因,但模塊化這個(gè)詞并不是洪水猛獸,ZEN架構則是模塊化設計理念下更成熟的產(chǎn)物。
雖然同樣采用模塊化的設計理念,但是ZEN架構吸取了推土機的教訓,每一個(gè)核心都是完整的核心,并且大幅加強了浮點(diǎn)運算性能,在整數管線(xiàn)上,Zen有4個(gè)算術(shù)邏輯單元(ALU)和兩個(gè)地址產(chǎn)生單元(AGU)。浮點(diǎn)管線(xiàn)上,共享浮點(diǎn)單元的概念被廢棄了:現在每個(gè)核都有一對獨立的128位乘法疊加運算單元(FMA)。浮點(diǎn)單元內有分開(kāi)的加法和乘法管線(xiàn),用于在不進(jìn)行乘法累積運算時(shí)應對更多樣的混合指令。但256位AVX指令集還是得分開(kāi)在兩個(gè)FMA單元上執行,并動(dòng)用所有的浮點(diǎn)單元。最終結果就是Ryzen系列處理器對比推土機系列處理器在ipc方面有著(zhù)超過(guò)40%的巨幅提升。
ZEN架構
ZEN架構中一個(gè)CCX模塊中有4個(gè)核心,每個(gè)核心擁有自己獨立的L1和L2緩存,一個(gè)CCX模塊共享8MB L3緩存。每個(gè)核心都可以選擇性地開(kāi)啟或者關(guān)閉SMT功能,也可以選擇性地關(guān)閉部分核心。相比于Intel的環(huán)形布線(xiàn),ZEN架構的帶來(lái)的好處是顯而易見(jiàn)的。在A(yíng)MD最新的處理器布局上,每一代從最高的服務(wù)器EPYC到最低端的入門(mén)級Ryzen 3系列處理器,他們都只需要設計一個(gè)Die(內核),然后不斷堆棧即可,這對比Intel方面會(huì )省下不少的設計和流片成本,所以我們也能看到市場(chǎng)上同核心的Ryzen處理器售價(jià)會(huì )相比酷睿要低不少。除此以外,模塊化的設計也讓CPU核心的增加像堆棧積木那么簡(jiǎn)單,線(xiàn)程撕裂者Threadripper 2990WX的誕生也是水到渠成的事情。
改善了推土機單線(xiàn)程羸弱,依賴(lài)高頻的缺點(diǎn),并秉承著(zhù)模塊化的設計理念,相信未來(lái)通用運算依然對多線(xiàn)程的有著(zhù)極大的需求,時(shí)隔6年后,AMD再一次依靠ZEN架構奏響進(jìn)軍高端CPU市場(chǎng)的號角。
而在A(yíng)MD依靠Threadripper 2990WX奪得消費級CPU市場(chǎng)王座的背后,是史上最失敗的處理器甘當墊腳石的結果。
總結
英雄總會(huì )遲暮,更何況推土機更像是一個(gè)傳統意義上的“狗熊”,但不管怎么說(shuō),當推土機這些老前輩看到Threadripper 2990WX如此強大時(shí),相信也會(huì )不留遺憾的離去,消失在歷史的洪流當中。而曉邊我,也只能以此文,紀念這款被I粉嘲笑,被A飯仇恨的處理器,為大家帶來(lái)它的故事。
-
amd
+關(guān)注
關(guān)注
25文章
5264瀏覽量
132904 -
cpu
+關(guān)注
關(guān)注
68文章
10525瀏覽量
207449
發(fā)布評論請先 登錄
相關(guān)推薦
評論