0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區
會(huì )員中心
創(chuàng )作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內不再提示

人工智能工作負載正在顛覆處理器設計

AI智勝未來(lái) ? 來(lái)源:戰略前沿技術(shù) ? 2023-11-15 09:28 ? 次閱讀

人工智能工作負載正在以一些意想不到的方式改變處理器設計。

人工智能正在從根本上改變處理器的設計,將針對特定人工智能工作負載的定制處理單元與用于其他任務(wù)的更傳統的處理器相結合。

但權衡越來(lái)越令人困惑、復雜,管理起來(lái)也越來(lái)越具有挑戰性。例如,工作負載的變化速度可能比生產(chǎn)定制設計所需的時(shí)間還要快。此外,特定于人工智能的流程產(chǎn)生的功率和熱可能會(huì )超出預算,這可能需要調整工作負載。整合所有這些部分可能會(huì )產(chǎn)生需要在系統層面解決的問(wèn)題,而不僅僅是在芯片層面。

“人工智能工作負載已經(jīng)徹底改變了處理器架構,”Rambus研究員、杰出的發(fā)明家史蒂文?吳(Steven Woo)表示?!昂苊黠@,現有的架構并不能很好地工作。當人們在2014年開(kāi)始意識到你可以使用gpu并在交換性能上獲得巨大收益時(shí),它就給了人工智能一個(gè)巨大的推動(dòng)。這時(shí)人們開(kāi)始說(shuō),‘GPU是一種專(zhuān)門(mén)的架構。我們還能做得更多嗎?很明顯,人工智能中非常常見(jiàn)的乘法累加是瓶頸?,F在你有了這些很棒的硬件。我們已經(jīng)搞定了乘法累加。那么我們還需要在硬件中加入什么呢?這才是架構的真諦。就如同在拆帳篷時(shí)關(guān)鍵是找到帳篷里的掛鉤或長(cháng)桿子,然后把它們敲倒?!?/p>

其他人也同意。Ansys主管Rich Goldman表示:“人工智能適合GPU架構,這就是英偉達擁有萬(wàn)億美元市值的原因?!薄坝腥さ氖?,英特爾做gpu已經(jīng)很長(cháng)時(shí)間了,但是用來(lái)在他們的cpu內部驅動(dòng)視頻處理器?,F在他們在做獨立的gpu。此外,AMD有一個(gè)非常有趣的架構,GPU和CPU共享內存。然而,CPU仍然很重要。NVIDIA的Grace Hopper是cpu和GPU的組合,因為并不是所有的東西都適合GPU架構。即使在這樣做的應用程序中,也有一些部件只能運行小型cpu。幾十年來(lái),我們一直在x86架構的CPU上運行,也許是RISC架構,但它是一個(gè)CPU。不同的應用程序在不同的架構上運行得更好,碰巧NVIDIA首先專(zhuān)注于視頻游戲,并將其轉化為動(dòng)畫(huà)和電影。同樣的架構非常適合人工智能,而人工智能正在推動(dòng)今天的一切?!?/p>

現在的挑戰是如何開(kāi)發(fā)更有效的平臺,可以針對特定的用例進(jìn)行優(yōu)化?!爱斈阍谡嬲蓴U展的硬件上實(shí)現這個(gè)東西時(shí),而不僅僅是一次性的用例,那么挑戰就變成了你如何運行這個(gè)東西?Cadence Tensilica AI產(chǎn)品營(yíng)銷(xiāo)總監Suhas Mitra說(shuō)?!皞鹘y的處理器,我們有一個(gè)CPU。如果你有一個(gè)移動(dòng)平臺,你就有GPU、DSP等。所有這些都很混亂,因為人們看到這些工作負載有時(shí)是令人尷尬的并行。隨著(zhù)并行計算的出現,這也是gpu變得非常流行的原因——它們擁有非常好的硬件引擎,可以進(jìn)行并行處理——供應商很容易立即獲利?!?/p>

Expedera的首席科學(xué)家沙拉德?喬勒(Sharad Chole)表示,當工作量得到明確的理解時(shí),這種方法效果最好?!霸谶@些架構中,假設你試圖在邊緣架構中以緊密耦合的方式集成ISP和NPU。SoC負責人正在研究如何減少設計的面積和功耗?!?/p>

Chole說(shuō),這里的挑戰是理解架構中內存部分的延遲含義?!叭绻鸑PU很慢,內存會(huì )是什么樣子?當NPU快速運行時(shí),內存會(huì )是什么樣子?最后,平衡mac和平衡內存之間的問(wèn)題來(lái)自于我們試圖盡可能減少輸入和輸出緩沖?!?/p>

外部?jì)却鎺捯彩瞧渲械年P(guān)鍵部分,特別是對于邊緣設備?!皼](méi)有人有足夠的帶寬,”他補充說(shuō)?!澳敲?,我們如何劃分工作負載或調度神經(jīng)網(wǎng)絡(luò ),以使外部?jì)却鎺挸掷m下去,并盡可能低?這基本上是我們通過(guò)打包或將神經(jīng)網(wǎng)絡(luò )分成更小的部分并嘗試執行這兩個(gè)部分來(lái)做的事情?!?/p>

為快速變化的未來(lái)而設計

人工智能的一個(gè)大問(wèn)題是,算法和計算模型的發(fā)展和變化速度比它們從零開(kāi)始設計的速度要快。

Rambus Woo說(shuō):“如果你說(shuō)你要制造一個(gè)在LSTM(長(cháng)短期記憶)模型上非常出色的CPU,那么這個(gè)周期是幾年?!?/p>

“然后你會(huì )意識到,在兩年的時(shí)間里,LSTM模型來(lái)了又走,成為了主流。你想做專(zhuān)門(mén)的硬件,但你必須做得更快才能跟上。我們創(chuàng )造硬件的速度是否能和改變算法的速度一樣快?這當然很好,但我們不能這么做,即使整個(gè)行業(yè)都在被迫這么做。

這也意味著(zhù)處理人工智能工作負載的處理器的架構將不同于不關(guān)注人工智能工作負載的處理器?!叭绻憧纯催@些用于訓練的引擎,它們不會(huì )運行Linux或Word,因為它們不是為通用分支、廣泛的指令或支持廣泛的語(yǔ)言而設計的,”Woo說(shuō)?!八鼈兓旧鲜亲罨镜囊?,在少數類(lèi)型的操作中運行得非???。它們對執行計算所需的特定數據移動(dòng)模式進(jìn)行了高度調優(yōu)。例如,在谷歌TPU中,收縮陣列架構自20世紀80年代以來(lái)一直存在。它非常擅長(cháng)在大型數據陣列上完成一種特定類(lèi)型的均勻分布的工作,所以它非常適合這些密集的神經(jīng)網(wǎng)絡(luò )。但是運行通用代碼并不是這些東西的設計目的。它們更像是大規模的協(xié)處理器,可以很好地完成大部分計算,但它們仍然需要與其他可以管理其余計算的東西連接?!?/p>

甚至基準測試也是困難的,因為它并不總是一個(gè)蘋(píng)果與蘋(píng)果的比較,這使得開(kāi)發(fā)架構變得困難?!斑@是一個(gè)很難的話(huà)題,因為不同的人使用不同的工具來(lái)導航,”Expedera的Chole說(shuō)?!霸谠O計工程師的日常工作中,這項任務(wù)看起來(lái)像是系統級的基準測試。SoC的每個(gè)部分都要單獨進(jìn)行基準測試,并試圖根據這些數字推斷所需的帶寬是多少。這是性能,這是我將得到的延遲。在此基礎上,你要試著(zhù)估計整個(gè)系統的樣子。但隨著(zhù)我們在設計過(guò)程中取得更多進(jìn)展,我們正在研究某種基于模擬的方法,而不是完全的模擬,比如模擬中的事務(wù)精確模擬,以獲得不同設計塊的精確性能和精確帶寬要求。例如,有一個(gè)RISC-V和一個(gè)NPU,它們必須一起工作,完全共存。它們必須被流水線(xiàn)化嗎?他們的工作量可以流水線(xiàn)化嗎?RISC需要多少個(gè)精確的周期?為此,我們必須在RISC-V上編譯程序,在NPU上編譯程序,然后共同模擬?!?/p>

人工智能工作負載對處理器設計的影響

所有這些變量都會(huì )影響設計的處理器的功率、性能和面積/成本。

根據Arm的研究員兼高級技術(shù)總監Ian Bratt的說(shuō)法,“PPA對ML工作負載的權衡與所有架構師在考慮加速時(shí)所面臨的權衡類(lèi)似——能效與面積。在過(guò)去的幾年里,cpu在機器學(xué)習工作負載上有了明顯的提高,增加了特定于機器學(xué)習的加速指令。許多機器學(xué)習工作負載將在現代CPU上運行得很好。但是,如果您處于高度受限的能源環(huán)境中,那么可能值得支付額外的硅面積成本來(lái)添加專(zhuān)用npu,這比用于ML推理的CPU更節能。這種效率是以額外的硅面積和犧牲靈活性為代價(jià)的;NPU IP通常只能運行神經(jīng)網(wǎng)絡(luò )。此外,像NPU這樣的專(zhuān)用單元也可能比像CPU這樣更靈活的組件具有更高的整體性能(更低的延遲)?!?/p>

西門(mén)子EDA CATAPULT軟件部門(mén)的項目主管Russell Klein解釋說(shuō):“設計中有兩個(gè)主要方面將對其工作特性(PPA)產(chǎn)生最重要的影響。一個(gè)是計算中使用的數據表示。對于大多數機器學(xué)習計算來(lái)說(shuō),浮點(diǎn)數的效率非常低。使用更合適的表示可以使設計更快、更小、更低功耗?!?/p>

另一個(gè)主要因素是設計中計算單元的數量??巳R因說(shuō):“從本質(zhì)上講,設計中將內置多少乘法器?!薄斑@帶來(lái)了提供性能所需的并行性。一個(gè)設計可以有大量的乘法器,使其體積大、耗電量大、速度快?;蛘咚梢灾挥袔讉€(gè),使其體積小,功耗低,但速度要慢得多。除了功率、性能和面積之外,另一個(gè)非常重要的度量是每次推理的能量。任何由電池供電或收集能量的東西,都可能比功率更敏感?!?/p>

特征和權重的數字表示也會(huì )對設計的PPA產(chǎn)生重大影響。

“在數據中心,一切都是32位浮點(diǎn)數。替代表示可以減少操作符的大小以及需要移動(dòng)和存儲的數據量,”他指出?!按蠖鄶等斯ぶ悄芩惴ú恍枰↑c(diǎn)數支持的全部范圍,并且可以很好地處理定點(diǎn)數。定點(diǎn)乘法器的面積和功率通常是相應的浮點(diǎn)乘法器的1 / 2,而且運行速度更快。通常,32位的定點(diǎn)表示也不需要。許多算法可以將特征和權重的位寬度減小到16位,或者在某些情況下減小到8位甚至更小。乘法器的大小和功率與它所操作的數據大小的平方成正比。因此,16位乘法器的面積和功率是32位乘法器的四分之一。8位定點(diǎn)乘法器的面積和功耗大約是32位浮點(diǎn)乘法器的3%。如果算法可以使用8位定點(diǎn)數而不是32位浮點(diǎn)數,則只需要?的內存來(lái)存儲數據,并且只需要?的總線(xiàn)帶寬來(lái)移動(dòng)數據。這大大節省了面積和電力。通過(guò)量化感知訓練,可以進(jìn)一步減小所需的比特寬度。通常,以量化感知方式訓練的網(wǎng)絡(luò )需要的比特寬度大約是訓練后量化網(wǎng)絡(luò )的二分之一。這將存儲和通信成本降低了1 / 2,乘法器的面積和功率降低了3 / 4。量化感知訓練網(wǎng)絡(luò )通常只需要3-8位的定點(diǎn)表示。有時(shí)候,有些層可能只有一個(gè)位。一個(gè)1位乘法器是一個(gè)“與”門(mén)。

此外,當積極量化網(wǎng)絡(luò )時(shí),溢出會(huì )成為一個(gè)重要問(wèn)題。使用32位浮點(diǎn)數,開(kāi)發(fā)人員不需要擔心值超出表示的容量。但是對于小的定點(diǎn)數,必須解決這個(gè)問(wèn)題。很可能會(huì )經(jīng)常發(fā)生溢出。使用飽和運算符是解決這個(gè)問(wèn)題的一種方法。該操作將存儲表示的最大可能值,而不是溢出。事實(shí)證明,這對于機器學(xué)習算法非常有效,因為一個(gè)大的中間和的確切大小并不重要,只要它變大就足夠了。使用飽和數學(xué)可以讓開(kāi)發(fā)人員從他們使用的固定點(diǎn)數的大小中減去1或2位。一些神經(jīng)網(wǎng)絡(luò )確實(shí)需要浮點(diǎn)表示提供的動(dòng)態(tài)范圍。它們在轉換為定點(diǎn)時(shí)失去了太多的精度,或者需要超過(guò)32位的表示才能提供良好的精度。在這種情況下,可以使用幾種浮點(diǎn)表示。谷歌為其N(xiāo)PU開(kāi)發(fā)的B-float16(或“腦浮點(diǎn)數”)是一個(gè)16位浮點(diǎn)數,可以很容易地轉換為傳統浮點(diǎn)數。與較小的固定點(diǎn)數一樣,它會(huì )導致更小的乘數和更少的數據存儲和移動(dòng)。還有IEEE-754 16位浮點(diǎn)數和NVIDIA的Tensorfloat?!?/p>

使用這些方法中的任何一種都將導致更小、更快、更低功耗的設計。

此外,Woo說(shuō):“如果你有一個(gè)通用的核心,它確實(shí)擅長(cháng)做很多事情,但它不會(huì )做得很好。它只是一般的。在處理工作負載的任何時(shí)間點(diǎn),都會(huì )有通用核心的某些部分正在使用,某些部分沒(méi)有使用。擁有這些東西需要面積,需要力量。人們開(kāi)始意識到摩爾定律仍然會(huì )給我們帶來(lái)更多的晶體管,所以也許正確的做法是構建這些擅長(cháng)AI流水線(xiàn)上某些任務(wù)的專(zhuān)門(mén)核心。有時(shí)你會(huì )關(guān)閉它們,有時(shí)你會(huì )打開(kāi)它們。但這比使用這些通用內核要好,因為通用內核總是浪費一些面積和功率,而且永遠無(wú)法獲得最佳性能。再加上一個(gè)愿意支付的市場(chǎng)——一個(gè)非常高利潤、高美元的市場(chǎng)——這是一個(gè)很好的組合?!?/p>

在硬件工程領(lǐng)域,這也是一種相對容易理解的方法。Ansys的產(chǎn)品營(yíng)銷(xiāo)總監Marc Swinnen說(shuō):“你打開(kāi)第一個(gè)版本,一旦安裝了它,你就會(huì )發(fā)現哪些是可行的,哪些是不可行的,然后嘗試解決問(wèn)題?!薄澳氵\行的應用程序對于理解這些權衡是至關(guān)重要的。如果您可以使您的硬件與您想要運行的應用程序相匹配,那么您將獲得比使用現成的東西更有效的設計。你為自己做的芯片正好適合你想做的事情?!?/p>

這就是為什么一些生成式人工智能開(kāi)發(fā)者正在探索構建自己的芯片,這表明在他們看來(lái),即使是目前的半導體也不足以滿(mǎn)足他們未來(lái)想要做的事情。這是人工智能如何改變處理器設計和周?chē)袌?chǎng)動(dòng)態(tài)的又一個(gè)例子。

人工智能也可能在CHIPLET領(lǐng)域發(fā)揮重要作用,在這個(gè)領(lǐng)域,半定制和定制硬件模塊可以被表征并添加到設計中,而無(wú)需從頭開(kāi)始創(chuàng )建所有東西。像英特爾和AMD這樣的大型芯片制造商已經(jīng)在內部這樣做了一段時(shí)間,但無(wú)晶圓廠(chǎng)公司處于劣勢。

“問(wèn)題在于,你的CHIPLET必須與現有的解決方案競爭,”弗勞恩霍夫研究所(Fraunhofer IIS)自適應系統工程部高效電子部門(mén)主管安迪·海尼格(Andy Heinig)說(shuō)?!叭绻悻F在不專(zhuān)注于表現,你就無(wú)法競爭。人們專(zhuān)注于讓這個(gè)生態(tài)系統啟動(dòng)并運行。但從我們的角度來(lái)看,這是一個(gè)先有雞還是先有蛋的問(wèn)題。你需要性能,特別是因為這些芯片比SoC解決方案更昂貴。但你目前還不能真正專(zhuān)注于性能,因為你必須先讓這個(gè)生態(tài)系統啟動(dòng)并運行起來(lái)。

正確的開(kāi)始

與過(guò)去不同的是,許多芯片都是為插槽設計的,而人工智能則完全取決于工作負載。

Expedera的Chole說(shuō):“當這些權衡發(fā)生時(shí),心中有一個(gè)目標的概念是非常重要的?!薄叭绻阒皇钦f(shuō),‘我想做所有的事情,支持所有的事情’,那么你并沒(méi)有真正優(yōu)化任何事情。你基本上只是把一個(gè)通用的解決方案放在里面,希望它能滿(mǎn)足你的功率需求。在我們看來(lái),這種做法很少奏效。每個(gè)神經(jīng)網(wǎng)絡(luò )和邊緣設備上的每個(gè)部署案例都是獨一無(wú)二的。如果把你的芯片安放在耳機里并運行RNN,而不是在A(yíng)DAS芯片中運行變換器,這是一個(gè)完全不同的用例。npu、內存系統、配置、功耗完全不同。因此,了解我們想要嘗試的重要工作負載集是非常重要的。這些可以是多個(gè)網(wǎng)絡(luò )。您必須讓團隊在重要的網(wǎng)絡(luò )上達成一致,并在此基礎上進(jìn)行優(yōu)化。當工程團隊考慮npu時(shí),這是缺失的。他們只是想要得到世界上最好的東西,但是你不可能在沒(méi)有交易的情況下得到最好的東西。我能給你最好的,但你想在哪個(gè)方面做到最好呢?”

Cadence的米特拉指出,每個(gè)人都以類(lèi)似的方式思考PPA,但后來(lái)人們強調他們關(guān)心的是功率、性能、面積/成本(PPAC)的哪一部分?!叭绻闶且粋€(gè)數據中心的人,你可能會(huì )接受犧牲一點(diǎn)面積,因為你需要的是非常高吞吐量的機器,因為你需要做數十億的人工智能推理或人工智能的事情,這一次是在交易市場(chǎng)份額的同時(shí)運行巨大的模型,導致大量的數據。很久以前,你可以考慮一個(gè)桌面運行的東西,用于人工智能模型開(kāi)發(fā),用于推理,但即使是一些大型語(yǔ)言模型的推理也變得非常棘手。這意味著(zhù)你需要一個(gè)大規模的數據集群,你需要在超大規模的數據中心規模上進(jìn)行大規模的數據計算?!?/p>

還有其他的考慮。Synopsys EDA集團產(chǎn)品管理總監William Ruby表示:“硬件架構決策推動(dòng)了這一點(diǎn),但軟件的作用也至關(guān)重要?!彼赋?,性能與能效是關(guān)鍵?!靶枰嗌賰却?”如何對內存子系統進(jìn)行分區?軟件代碼可以?xún)?yōu)化能源效率嗎?(是的,它可以。)出于所有PPAC的原因,工藝技術(shù)的選擇也很重要?!?/p>

此外,Synopsys人工智能/機器學(xué)習處理器產(chǎn)品經(jīng)理Gordon Cooper表示,如果能效不是優(yōu)先考慮的問(wèn)題,可以使用嵌入式GPU?!八鼤?huì )給你最好的編碼靈活性,但永遠不會(huì )像專(zhuān)用處理器那樣節能。如果你在設計一個(gè)NPU,那么在面積和功率的平衡方面仍然需要做出權衡。最小化片上內存將大大減少您的總面積預算,但將增加從外部存儲器傳輸的數據,這將大大增加功率。增加片上內存將降低外部存儲器讀寫(xiě)的功耗?!?/p>

結論

所有這些問(wèn)題越來(lái)越成為系統問(wèn)題,而不僅僅是芯片問(wèn)題。

“人們認為人工智能訓練部分是,‘哦,哇,這真的是計算量很大。這是大量的數據移動(dòng),’”Woo說(shuō)?!耙坏┠阆胍獙⑺羞@些加速硬件投入其中,那么系統的其余部分就會(huì )開(kāi)始成為阻礙。出于這個(gè)原因,我們越來(lái)越多地看到像英偉達和其他公司的這些平臺,他們有精心設計的人工智能訓練引擎,但他們也可能有英特爾至強芯片。這是因為人工智能引擎不太適合做計算的另一部分。它們不是為運行通用代碼而設計的,所以這越來(lái)越成為一個(gè)異構系統問(wèn)題。你必須讓所有的東西協(xié)同工作?!?/p>

另一個(gè)難題是在軟件方面,可以通過(guò)各種方法(如簡(jiǎn)化)提高效率?!斑@是一種認識,在人工智能中,有一個(gè)特定的算法部分和一個(gè)特定的計算稱(chēng)為減少,這是一種將大量數字減少到一個(gè)數字或一小組數字的奇特方式,”Woo解釋說(shuō)?!八赡苁菍⑺鼈內考釉谝黄鸹蝾?lèi)似的東西。傳統的做法是,如果你有所有來(lái)自其他處理器的數據,通過(guò)互聯(lián)網(wǎng)絡(luò )發(fā)送到一個(gè)處理器,然后讓這個(gè)處理器把所有的數據都加起來(lái)。所有這些數字都通過(guò)這個(gè)網(wǎng)絡(luò )通過(guò)交換機到達處理器。我們?yōu)槭裁床话阉鼈兗拥介_(kāi)關(guān)里呢,因為它們都是通過(guò)開(kāi)關(guān)的?優(yōu)點(diǎn)是它類(lèi)似于內聯(lián)處理。有趣的是,一旦你在交換機中添加了所有內容,你只需要傳遞一個(gè)號碼,這意味著(zhù)網(wǎng)絡(luò )流量會(huì )下降?!?/p>

像這樣的架構考慮是值得考慮的,因為它們同時(shí)解決了幾個(gè)問(wèn)題,Woo說(shuō)。首先,數據在網(wǎng)絡(luò )上的移動(dòng)速度非常慢,這告訴您要盡可能少地移動(dòng)數據。其次,它消除了將數據傳遞給處理器的冗余工作,只是讓處理器完成所有的數學(xué)運算,然后將結果傳遞回來(lái)。這一切都在網(wǎng)絡(luò )中完成,第三,它是非常并行的,所以你可以讓每個(gè)交換機做部分計算。

同樣,Expedera的Chole表示,人工智能工作負載現在可以通過(guò)單幅圖來(lái)定義?!氨仨毲宄@個(gè)圖并不是為了一小組指令。我們不是做單次加法。我們一次要做數百萬(wàn)個(gè)加法,或者一次要做1000萬(wàn)個(gè)矩陣乘法運算。這就改變了你對執行的思維模式,改變了你對指令的思維方式,改變了你對指令的壓縮方式,改變了你對指令的預測和調度方式。在通用CPU中這樣做是不實(shí)際的。這樣做的成本太高了。然而,作為一個(gè)神經(jīng)網(wǎng)絡(luò ),同時(shí)活動(dòng)的mac數量是巨大的,你可以生成指令的方式,創(chuàng )建指令,壓縮指令,調度指令,在利用率和帶寬方面改變了很多。這就是人工智能在處理器架構方面的巨大影響?!?/p>






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權轉載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習之用,如有內容侵權或者其他違規問(wèn)題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    18565

    瀏覽量

    224120
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4670

    瀏覽量

    102070
  • 人工智能
    +關(guān)注

    關(guān)注

    1781

    文章

    44792

    瀏覽量

    231999
  • RISC
    +關(guān)注

    關(guān)注

    6

    文章

    432

    瀏覽量

    83460
  • GPU芯片
    +關(guān)注

    關(guān)注

    1

    文章

    303

    瀏覽量

    5709

原文標題:AI正在顛覆處理器設計

文章出處:【微信號:AI智勝未來(lái),微信公眾號:AI智勝未來(lái)】歡迎添加關(guān)注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時(shí)代背景下,嵌入式人工智能成為國家新型基礎建設與傳統產(chǎn)業(yè)升級的核心驅動(dòng)力。同時(shí)在此背景驅動(dòng)下,眾多名企也紛紛在嵌入式人工智能領(lǐng)域布局
    發(fā)表于 02-26 10:17

    人工智能工作負載處理器設計的影響

    外部存儲器帶寬也是其中的關(guān)鍵部分,尤其是對于邊緣設備而言。"沒(méi)有人擁有足夠的帶寬,"他補充道。"因此,我們該如何劃分工作負載或調度神經(jīng)網(wǎng)絡(luò ),從而使外部?jì)却鎺挼靡跃S持并盡可能降低?
    發(fā)表于 11-16 10:46 ?203次閱讀

    ai人工智能機器人

    隨著(zhù)時(shí)間的推移,人工智能的發(fā)展越來(lái)越成熟,智能時(shí)代也離人們越來(lái)越近,近幾年人工智能越來(lái)越火爆,人工智能的應用已經(jīng)開(kāi)始滲透到各行各業(yè),與生活交融,成為人們無(wú)法拒絕,無(wú)法失去的一個(gè)重要存在
    發(fā)表于 09-21 11:09

    《通用人工智能:初心與未來(lái)》-試讀報告

    作者給出的結論。整體讀下來(lái),可以給我們關(guān)于通用人工智能全面的了解。作者也反復強調了通用人工智能與專(zhuān)用智能的區別。尤其是人們錯誤的認為一堆專(zhuān)用智能堆砌起來(lái)就是通用
    發(fā)表于 09-18 10:02

    基于IDE構建用于STM32微處理器的完整人工智能項目

    本用戶(hù)手冊指導了基于 IDE 逐步構建用于 STM32 微處理器的完整人工智能(AI)項目,自動(dòng)轉換預訓練好的神經(jīng)網(wǎng)絡(luò )(NN)并集成所生成的優(yōu)化庫。本手冊還介紹了 X-CUBE-AI 擴展包,該擴展
    發(fā)表于 09-07 06:15

    如何將人工智能應用到效能評估系統軟件中去解決

    以使用機器學(xué)習算法,對實(shí)時(shí)數據進(jìn)行分析和處理,以便更好地總結和預測未來(lái)趨勢。   其次,華盛恒輝人工智能可以幫助我們識別業(yè)務(wù)流程中的瓶頸和短板,并提供更有效的解決方案。例如,我們可以使用智能算法來(lái)
    發(fā)表于 08-30 12:58

    Arm Cortex-M55處理器數據集

    ARM Cortex-M55處理器是一款完全可合成的中端微控制處理器,實(shí)現了ARMv8.1-M主線(xiàn)架構,并支持M-Profile向量擴展(MVE),也稱(chēng)為ARM氦技術(shù)。 它是ARM最具人工
    發(fā)表于 08-25 07:46

    人工智能芯片的工作原理、常用架構和主要材料

      人工智能芯片是一種專(zhuān)門(mén)設計用于人工智能(AI)應用的芯片。相比于傳統的通用處理器芯片,人工智能芯片具有更高的能效和性能,并且針對AI算法進(jìn)行了優(yōu)化。
    發(fā)表于 08-24 17:05 ?3965次閱讀

    人工智能技術(shù)設備哪些

    人工智能芯片可以加速處理人工智能工作負載,從而實(shí)現計算機算力的提高。人工智能芯片被廣泛應用于深度
    的頭像 發(fā)表于 08-14 13:50 ?2703次閱讀

    什么是人工智能處理器

    人工智能處理器的主要優(yōu)勢在于它們的高效能力、低功耗和低延遲。與基于CPU或GPU的通用處理器相比,AI處理器通常具有更高的能效比,這意味著(zhù)它們可以對更多的數據進(jìn)行
    的頭像 發(fā)表于 08-13 16:45 ?2063次閱讀

    人工智能工作是什么

    人工智能技術(shù)的應用越來(lái)越廣泛,尤其是在信息技術(shù)、金融、醫療、教育、物流、電子商務(wù)、智能制造等領(lǐng)域。相應的,人工智能領(lǐng)域的工作也呈現出多樣化和復雜化的趨勢。隨著(zhù)
    的頭像 發(fā)表于 08-13 09:43 ?951次閱讀

    GAUDIR HL-2000處理器介紹

    。HL-205符合oCP OAM(開(kāi)放式計算機加速夾層)規范。 GAUDIR旨在加速各種AlTraining工作負載,如圖像分類(lèi)、對象檢測、自然語(yǔ)言處理、文本到語(yǔ)音、情感分析、推薦系
    發(fā)表于 08-04 07:23

    使用第4代Intel RXeon R可擴展處理器和lntelRAMX加速VMware vSAN上的所有工作負載

    推動(dòng)業(yè)務(wù)的改進(jìn)和成果。 雖然人工智能(Al)是vSAN上的一個(gè)新興用例,但Aland深度學(xué)習(DL)的發(fā)展速度意味著(zhù)它們很快就會(huì )被構建到幾乎所有的企業(yè)應用程序和分析工具中。今天的vSAN用戶(hù)在他
    發(fā)表于 08-04 06:48

    AI 人工智能的未來(lái)在哪?

    人工智能、AI智能大模型已經(jīng)孵化;繁衍過(guò)程將突飛猛進(jìn),ChatGPT已經(jīng)上線(xiàn)。 世界首富馬斯克認為AI對人類(lèi)是一種威脅;谷歌前CEO施密特認為AI和機器學(xué)習對人類(lèi)有很大益處。 每個(gè)國家對核武器的運用有兩面性,可造可控;但AI智能
    發(fā)表于 06-27 10:48

    【書(shū)籍評測活動(dòng)NO.16】 通用人工智能:初心與未來(lái)

    的新一波人工智能正在興起。自然語(yǔ)言處理、人臉識別、自動(dòng)駕駛、無(wú)人系統等復雜人工智能任務(wù)相繼取得大的突破,人工智能在很多特定問(wèn)題(如圍棋、《星
    發(fā)表于 06-21 14:41
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看