2023年5月,聯(lián)發(fā)科與英偉達宣布合作,共同研發(fā)車(chē)載芯片,原本計劃是采用Chiplet形式。
2024年3月,聯(lián)發(fā)科正式發(fā)布新一代Dimensity Auto 座艙平臺,最大亮點(diǎn)是英偉達RTX GPU IP的加入和臺積電3納米的制造工藝。臺積電3納米制造工藝是目前芯片行業(yè)最先進(jìn)的制造工藝,這是汽車(chē)芯片第一次與手機和AI芯片同時(shí)使用最先進(jìn)的制造工藝,但不是Chiplet,推測一來(lái)是3納米的Chiplet制造工藝不夠成熟,二就是Chiplet需要動(dòng)用臺積電先進(jìn)封裝,成本并不比單一die低,甚至可能高2-3倍,汽車(chē)行業(yè)對價(jià)格還是相對比較敏感的。
聯(lián)發(fā)科是一家非常低調的公司,品牌形象營(yíng)造遠不如高通,也極少對外透露信息。
聯(lián)發(fā)科一直被高通擠壓,特別是在GPU和AI方面,聯(lián)發(fā)科引入英偉達的GPU IP來(lái)彌補這一短板。
從聯(lián)發(fā)科官方介紹中,我們不難看出聯(lián)發(fā)科使用的英偉達GPU IP是何種類(lèi)型的IP,因為DLSS3是RTX40系列獨有的功能,也就是說(shuō)聯(lián)發(fā)科使用了英偉達RTX40系列桌面顯卡的IP。
簡(jiǎn)單介紹一下DLSS3
圖片來(lái)源:英偉達
DLSS全稱(chēng)Deep Learning Super Sampling(深度學(xué)習超采樣),主要包括DLAA、插幀和光線(xiàn)重建。插幀即幀生成,它可以生成全新幀,而不僅是像素,從而帶來(lái)驚人的性能提升?;贜VIDIA Ada Lovelace架構的新光流加速器可分析兩幀連續的游戲圖像,并計算幀到幀中物體和元素的運動(dòng)矢量數據,而不使用傳統游戲引擎的運動(dòng)矢量進(jìn)行建模。這極大地減少了AI在渲染諸如粒子、反射、陰影和光照等元素時(shí)的視覺(jué)異常。
通過(guò)綜合游戲中的一對超級分辨率幀,以及引擎和光流運動(dòng)矢量,并將其輸入至卷積神經(jīng)網(wǎng)絡(luò ),就能計算生成出新的一幀,這在實(shí)時(shí)游戲渲染中是首次實(shí)現。將DLSS生成的全新幀與DLSS超級分辨率幀相結合,使DLSS 3能用AI重建八分之七的顯示像素,與沒(méi)有DLSS相比,游戲性能提升了4倍。
由于DLSS生成幀在GPU上作為后處理執行,即使游戲受到CPU性能限制,也能從中獲得游戲性能提升。對于受到CPU限制的游戲,例如物理計算密集型游戲或大型場(chǎng)景游戲,DLSS 3令GeForce RTX 40系列GPU以高達兩倍于CPU可計算的性能渲染游戲。
DLSS 3集成也包括NVIDIA Reflex,可以使GPU和CPU同步,確保最佳響應速度和低系統延遲。
DLSS3的插幀技術(shù)目前還是英偉達獨有,AMD和英特爾沒(méi)有,也就是說(shuō)如果用聯(lián)發(fā)科的芯片運行《賽博朋克2077》這樣的硬件殺手游戲,效果或可以碾壓特斯拉座艙的AMD 分離式GPU。
RTX40系列也有多個(gè)版本,最低的是筆記本電腦用的GTX4050,AD107架構,2560個(gè)CUDA,聯(lián)發(fā)科最大可能用這個(gè)架構。RTX4050的稀疏INT8算力估計有104TOPS,將來(lái)聯(lián)發(fā)科的旗艦芯片或許AI算力大約就是100TOPS,當然了功耗會(huì )有25-35瓦以上,水冷恐怕不可避免。
另一大特色就是3納米工藝,據稱(chēng)目前蘋(píng)果和聯(lián)發(fā)科已經(jīng)包下了臺積電全部的3納米產(chǎn)能,高通拿不到臺積電的3納米產(chǎn)能了,高通打算使用三星的3納米。眾所周知,三星與臺積電差距還是很大的。制造工藝上,聯(lián)發(fā)科與同在臺灣省內的臺積電合作更加順利,聯(lián)發(fā)科的手機芯片也拿到了4納米首發(fā),領(lǐng)先了高通一步,3納米上基本也可以確定,聯(lián)發(fā)科也是首發(fā)。臺積電第一代3nm工藝是N3B,由臺積電的大客戶(hù)蘋(píng)果率先使用,A17 Pro、M3系列芯片等都是使用的臺積電第一代3nm工藝制程。臺積電第二代3nm工藝是N3E,N3E預計將比N3B應用更廣泛,除了前面提到的聯(lián)發(fā)科天璣9400芯片外,高通驍龍8 Gen4、A18系列芯片也原本計劃采用N3E工藝。臺積電N3E是N3B的增強版,良率更高,成本更低,但密度會(huì )略低于N3B。
聯(lián)發(fā)科這次也是和高通一樣,手機芯片與車(chē)載芯片同步,都采用最先進(jìn)的3納米制造工藝,考慮到3納米高達數億美元的驚人的一次性流片成本,聯(lián)發(fā)科的手機和車(chē)載芯片應該有共通之處。
2023年9月,聯(lián)發(fā)科宣布首款使用臺積電3納米工藝的芯片即將在2024年量產(chǎn),這就是聯(lián)發(fā)科新旗艦天璣9400。
天璣9300開(kāi)始使用全大核設計,晶體管數量高達227億,比英偉達自動(dòng)駕駛Orin的170億還要多很多。天璣9300的227億晶體管,是真正的遙遙領(lǐng)先:蘋(píng)果A16是160億,A17 Pro是190億,蘋(píng)果M2是200億。即便是蘋(píng)果M3,也“僅”有250億晶體管,而高通好幾代沒(méi)公布晶體管數目了。歷史性的取消小核,CPU由4顆X4超大核和4顆A720大核組成,最高頻的X4有更大的緩存。跳出安卓SoC的視角看,天璣9300的4顆超大核和4顆大核,其實(shí)更接近于蘋(píng)果A系列和英特爾的P核(性能核)、E核(能效核)概念。
天璣首發(fā)LPDDR5T 9600Mbps內存,速度比之前的LPDDR5x 8533Mbps提升12.5%,這是大家以為要等LPDDR6才能達到的頻率(2年前的天璣9000是首發(fā)LPDDR 5x 7500Mbps內存,天璣9200是首發(fā)LPDDR5x 8533Mbps)。
天璣9400采用ARM旗艦Cortex-x5(下圖TCS24就是Cortex-x5,代號黑鷹),這是ARM最強CPU架構。
ARM的路線(xiàn)圖
圖片來(lái)源:ARM
Cortex-x5據說(shuō)將消除Arm設計的CPU內核與蘋(píng)果基于A(yíng)rm指令集自研的CPU內核之間的性能差距。Moor Insights & Strategy CEO Patrick Moorhead指出,ARM全新的Cortex-X系列CPU內核的內部代號為“Blackhawk”,是ARM CEO Rene Haas接下來(lái)的工作重點(diǎn)之一,旨在消除Arm設計的CPU內核與蘋(píng)果基于A(yíng)rm指令集自研的CPU內核之間的性能差距。Moorhead引用ARM說(shuō)法表示,“Blackhawk”核心將會(huì )帶來(lái)巨大的性能提升,是五年來(lái)同比最大的IPC性能提升。
整理:佐思汽研
多年來(lái)ARM一直在擠牙膏,IPC帶寬從2位,緩慢上升,而蘋(píng)果一開(kāi)始就到巔峰的8位,導致安卓性能遠低于蘋(píng)果,X5可能追平蘋(píng)果的8位解碼寬度,也可能直接到10位,超過(guò)蘋(píng)果。
圖片來(lái)源:聯(lián)發(fā)科
很多人以為AI運算和CPU沒(méi)關(guān)系,或者說(shuō)CPU無(wú)法做AI運算,實(shí)際上CPU完全可以做任何類(lèi)型的AI運算,只是數據吞吐能力不如GPU或AI加速器,拋開(kāi)數據吞吐,單純AI運算,CPU是最快的。ARM最新的CPU如Cortex-X3/X4/X5,都能夠運行大模型,目前手機領(lǐng)域或者說(shuō)移動(dòng)領(lǐng)域大模型最常見(jiàn)的是LIama2,這是目前最好的語(yǔ)言類(lèi)開(kāi)源大模型。天璣9400可以做到每秒12-15 tokens。
簡(jiǎn)單介紹一下LIama2,Meta 出品的 Llama 續作 Llama2,一系列模型(7B、13B、70B)均開(kāi)源可免費商用。Llama2在各個(gè)榜單上精度全面超過(guò)Llama1,同時(shí)也超過(guò)目前所有開(kāi)源模型。用于車(chē)載和手機的70億參數的相對較小的模型。
盡管語(yǔ)言類(lèi)大模型LLM訓練方法很直觀(guān):基于自回歸的transformer模型,在大量預料上做自監督訓練,然后通過(guò)人類(lèi)反饋強化學(xué)習 (RLHF) 等技術(shù)來(lái)與人類(lèi)偏好對齊。但高計算需求限制了LLM 只能由少數玩家來(lái)推動(dòng)發(fā)展?,F有的開(kāi)源大模型,例如BLOOM、Llama1、Falcon,雖然都能基本達到匹配非開(kāi)源大模型(如GPT-3、Chinchilla)的能力,但這些模型都不適合成為非開(kāi)源產(chǎn)品級LLM (比如ChatGPT、BARD、Claude)的替代品,因為這些封閉的產(chǎn)品級LLM經(jīng)過(guò)大量微調,與人類(lèi)的偏好保持一致,大大提高了它們的可用性和安全性。這一步在計算和人工標注中需要大量的成本,而且往往不透明或容易重現,限制了社區的進(jìn)步,以促進(jìn)AI對齊研究。
圖片來(lái)源:網(wǎng)絡(luò )
Meta自己的獎勵模型在基于Llama 2-Chat收集的內部測試集上表現最佳,其中「有用性」獎勵模型在「元有用性」測試集上表現最佳,同樣,「安全性」獎勵模型在「元安全性」測試集上表現最佳??傮w而言,Meta的獎勵模型優(yōu)于包括GPT-4在內的所有基線(xiàn)模型。有趣的是,盡管GPT-4 沒(méi)有經(jīng)過(guò)直接訓練,也沒(méi)有專(zhuān)門(mén)針對這一獎勵建模任務(wù),但它的表現卻優(yōu)于其他非元獎勵模型。
審核編輯:劉清
-
聯(lián)發(fā)科
+關(guān)注
關(guān)注
55文章
2596瀏覽量
253131 -
加速器
+關(guān)注
關(guān)注
2文章
766瀏覽量
36750 -
英偉達
+關(guān)注
關(guān)注
22文章
3483瀏覽量
88878 -
車(chē)載芯片
+關(guān)注
關(guān)注
0文章
68瀏覽量
14562 -
chiplet
+關(guān)注
關(guān)注
6文章
384瀏覽量
12462
原文標題:聯(lián)發(fā)科聯(lián)手英偉達挑戰高通與AMD,游戲、3納米和大模型
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車(chē)研究】歡迎添加關(guān)注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
![](https://file1.elecfans.com/web2/M00/E8/B2/wKgZomZQCSSAWQxgAARR8DNyGJQ963.png)
![](https://file1.elecfans.com/web2/M00/E7/E8/wKgZomZNbl2AI6KYAATUNQ1AEAY731.jpg)
![](https://file1.elecfans.com/web2/M00/E7/88/wKgZomZL_3mAFfE1AATUo-1dcxU565.jpg)
![](https://file1.elecfans.com/web2/M00/E5/F6/wKgZomZFqlCAHFvKAAZX4eRpKLk959.jpg)
![](https://file1.elecfans.com/web2/M00/E5/56/wKgZomZC4g-APaK9AATpTDE88ig407.jpg)
進(jìn)一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片
![](https://file1.elecfans.com/web2/M00/C9/2A/wKgaomYZ6FaAHF8UAASvmz1YP9Q152.jpg)
![](https://file1.elecfans.com/web2/M00/C8/98/wKgaomYV7_CAJltdAAUXO6rA8pA564.jpg)
![](https://file1.elecfans.com/web2/M00/C8/66/wKgaomYUmYGAJkJ3AAJ0NM0VSHM911.png)
![](https://file1.elecfans.com/web2/M00/C8/1C/wKgaomYSC9qANUOzAAUP22uM2f4176.jpg)
英偉達AI霸主地位遭巨頭聯(lián)手挑戰,CUDA壟斷遭破局
![](https://file1.elecfans.com/web2/M00/C6/1E/wKgaomX7in2AP8KUAAS68ZMaCew615.png)
![](https://file1.elecfans.com/web2/M00/BD/20/wKgaomWgln2Add42AAH66he2Auk195.png)
聯(lián)發(fā)科MT6877(天璣 900)平臺 —— XY6877 5G AI 智能模塊
![](https://file1.elecfans.com/web2/M00/BB/5D/wKgaomWUwlyAejumAAMblcjtPKQ108.png)
![](https://file1.elecfans.com/web2/M00/B8/CB/wKgZomWI1puAXGziAAd5Q6k5siY997.png)
評論