<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英特爾最新GPU Gaudi2架構相關信息介紹

要長高 ? 來源:半導體產業縱橫 ? 作者:半導體產業縱橫 ? 2022-05-12 15:26 ? 次閱讀

英偉達并不是唯一一家創建專業計算單元的公司,這些計算單元擅長矩陣數學和張量處理,這些計算單元支持AI訓練,并且可以重新用于運行AI推理。英特爾已經收購了兩家這樣的公司—Nervana Systems,并緊隨其后的是Habana Labs,后者已被英特爾產品化,并緊隨英偉達的GPU加速器之后。

英特爾是一家優秀的公司,該公司認為將在未來五年內獲得500億美元的人工智能計算機會(用于訓練和推理),從現在到2027年,英特爾將以25%的復合年增長率增長,達到這一水平。鑒于“Ponte Vecchio”Xe HPC GPU加速器即將推出的相當大的矩陣和矢量數學,以及即將到來的“Sapphire Rapids”Xeon SP CPU中AMX矩陣數學單元中很可能有足夠的推理容量,因此有理由想知道英特爾預計會銷售多少Gaudi訓練和Goya推理芯片。

我們了解到,當英特爾在2016年8月以3.5億美元與Nervana Systems達成交易并在2019年12月以20億美元收購Habana Labs時,它追求的是知識產權和人,當然,因為這就是這場IT戰爭的玩法,但我們一直想知道這些設備,以及來自競爭對手GraphCore的設計, Cerebras,SambaNova Systems和Groq將部署在類似于主流的東西中。上述四家公司迄今為止共籌集了28.7億美元。

所有這些產品都剛剛開始滾動,這就是為什么英特爾將其賭注對沖到Nervana和Habana,就像它對數據中心FPGA感到恐懼一樣(主要歸功于Microsoft Azure),并在2015年6月斥資167億美元收購了Altera。在2015年至2020年器件,在數據中心計算方面英特爾的Xeon CPU占據主導地位,并且通過收購方式,減少了一些競爭對手。

在本周舉行的Intel Vision 2022大會上,Gaudi2 AI訓練芯片是芯片制造商推出的大型新計算引擎,順便說一句,它不是英特爾實際制造的芯片,而是像其前身Gaudi1一樣,由競爭對手臺積電代工蝕刻而成。英特爾尚未透露對Gaudi2架構的深入研究,但這是我們所知道的。

通過Gaudi2,英特爾正在轉向臺積電的7納米工藝,隨著這種收縮,它能夠將芯片上的TPC數量從10個增加到24個,并增加了對新的8位FP8數據格式的支持,英偉達還將其添加到其“Hopper”GH100 GPU計算引擎中,該引擎于3月份推出,并在第三季度發貨。使用FP8格式,現在可以以相同的格式獲得低分辨率推理數據和高分辨率訓練數據,并且在從訓練移動到推理時不必在浮點和整數之間轉換模型。這對AI來說是一個真正的福音,盡管較低精度的整數格式可能會在未來許多年內保留在矩陣和矢量計算引擎中,以支持遺留代碼和其他類型的應用程序。Gaudi2芯片具有48 MB的SRAM,如果它與TPC數量線性擴展,將能達到2.4倍而不是2倍的SRAM,或57.6 MB。

Gaudi2芯片上有HBM2e內存組,可提供2.45 TB /秒的帶寬,比Gaudi1芯片增加了2.45倍。HBM2e內存庫的數量沒有透露,但六個16 GB HBM2e的存儲體為Gaudi2提供了訣竅,而Gaudi 1的四個存儲體為8 GB HBM2。僅兩個 HBM2e 內存控制器的增加就可將帶寬提高 1.33 倍,而帶寬的剩余增加來自提高內存速度。

Gaudi1芯片有十個100Gb/秒以太網端口,支持RoCE直接內存訪問協議,事實證明,每個TPC一個,但我們當時并不知道,因為只顯示了八個。但是Gaudi2有24個以太網端口以100 Gb / sec的速度運行,每個TPC一個。它的功率為650瓦。我們假設此設備插入PCI-Express 5.0插槽,但英特爾尚未確認這一點。

假設沒有重大的架構變化,并且該過程產生的時鐘速度從16納米縮小到7納米,我們預計Gaudi2芯片的性能將是Gaudi2的2.5倍。(還假設在任何給定應用程序中處理的精度水平相同。)但英特爾實際上并沒有說是否有任何架構變化(除了它增加了一些媒體處理功能)以及時鐘速度是如何變化的,所以我們必須推斷出來。

我們通過查看ResNet-50機器視覺訓練操作的圖表來做到這一點,該圖表使Gaudi1和Gaudi2與過去兩代英偉達GPU加速器競爭:

poYBAGJ8tZyAXOkSAAHREWHl00k459.png

與Nervana Systems一樣,Habana Labs非常認真地致力于創建一套芯片,為AI工作負載提供最佳收益和最佳性能。哈瓦那戈雅HL-1000推理芯片于2019年初宣布,Gaudi1 AI訓練芯片(也稱為HL-2000)于當年夏天晚些時候首次亮相。Gaudi1架構有一個通用矩陣乘法(GEMM)前端,后端由十個張量處理器內核或TPC組成,芯片只向用戶公開其中的八個,以幫助提高封裝的良率。

Gaudi1使用了第二代TPC,而Goya HL-1000 AI推理芯片則使用了不那么強大和不那么復雜的原始TPC設計。Gadui1芯片中的TPC可以使用C編程語言直接尋址,并具有張量尋址以及BF16和FP32浮點以及INT8,INT16和INT32整數格式的支持。TPC指令集具有加速Sigmoid,GeLU,Tanh和其他特殊功能的電路。Gaudi 1采用臺積電的16納米工藝,具有24 MB片上SRAM,四組HBM2存儲器,容量為32 GB,帶寬為1 TB/秒。Gaudi1插入PCI-Express 4.0 x16插槽,消耗了350瓦的果汁,并將幾乎所有的果汁轉換為熱量,就像芯片一樣。

英特爾尚未透露對Gaudi2架構的深入研究。

根據ResNet-50的比較,Gaudi2的性能是Gaudi1的3.2倍,但很難估計有多少性能是由于整個芯片的容量增加。這個特定的測試正在運行TensorFlow框架來執行圖像識別訓練,顯示的數據是每秒處理的圖像數量。

有一件事沒有顯示,而且很重要,那就是Gaudi2加速器將如何與Hopper GPU堆疊,但英偉達尚未透露任何特定測試的性能結果。但是,由于 H100 中的 HBM3 內存運行速度比 A100 加速器中使用的 HBM2e 內存快 1.5 倍,而FP16、TF32 和 FP64 在新的 Tensor Core 上提供的性能是 3 倍,因此可以合理地預期 H100 的性能將是 ResNet-50 視覺訓練工作負載的 1.5 倍到 3 倍。因此,H100將在ResNet-50測試中每秒提供4,395至8,790張圖像的性能。我們的猜測是,它將比前者更接近后者,并且比英特爾通過Gaudi2可以提供的更大幅度更大。

與使用BERT模型的自然語言處理相比,圖像識別和視頻處理相對容易。以下是Gaudi2與英偉達V100和A100的對比,請注意Gaudi1丟失了:

poYBAGJ8taiAPNPHAAHxA4oiaTc243.png

BERT 模型也在TensorFlow 框架上運行,此數據顯示了兩個不同訓練階段中每秒吞吐量的序列數。在一次預審中,哈瓦那實驗室部門首席商務官Eitan Medina表示,Gaudi2的性能不到A100的2倍。但是,H100擁有自己的FP8格式及其Transformer Engine,可以動態地改變AI訓練工作流程不同部分的數據精度和處理,可以做得更好。我們不知道具體到什么,但我們強烈懷疑英偉達至少可以縮小與Gaudi2的差距,并且很可能超越它。

有趣的是,英特爾在亞馬遜網絡服務上啟動了DL1Gaudi1實例,然后分別基于A100和V100 GPU的p4d和p3實例,并進行了一些價格/性能分析,以計算ResNet-50基準測試中認可的每張圖像的成本。請看一下:

poYBAGJ8tcCAFKhGAAK_5Whik6E208.png

這張圖表的意思是,Gaudi1的性能略好于V100,使用上圖中ResNet-50中英特爾的性能數據為27.3% ,并且價格提高了約60%,這意味著DL1實例的成本比使用V100的p3實例低得多。隨著遷移到基于A100的p4d實例,該實例具有40GB的HBM2e內存,英偉達設備在ResNet-50上的吞吐量比Gaudi1高出58.6%,但Gaudi1處理的每個圖像的成本降低了46%。這意味著A100實例確實要貴得多。如果我們對Hopper GPU加速器定價的猜測是正確的,并且英偉達收取大約2倍的費用,大約3倍的性能,英特爾將不得不保持出售給AWS的Gaudi2芯片的價格,因為AWS仍然可以顯示出比運行AI訓練的H100實例更好的性價比。

無論如何,英特爾在其實驗室中運行了超過1000個Gaudi2,因此它可以調整SynapseAI軟件堆棧,其中包括在Habana的圖形編譯器,內核庫和通信庫上運行的PyTorch和TensorFlow框架。Gaudi2芯片現在正在發貨。

除了Gaudi2芯片外,英特爾還在預覽其Greco后續Goya推理引擎,該引擎也在臺積電躍升至7納米至16納米工藝。

Greco 推理卡具有 16GB 的 LPDDR5 主內存,可提供 204 GB/秒的內存帶寬,而使用先前的 Goya 推理引擎的 DDR4 內存塊為 40 GB/秒。哈瓦那架構的Greco變體支持INT4,BF16和FP16格式,功耗為75瓦,大大低于2019年初宣布的HL-1000設備的200瓦。如上圖所示,它被壓縮成一個更緊湊的半高,半長的PCI-Express卡。目前還沒有關于這個的性能或定價的消息。

綜合:半導體產業縱橫編輯部

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    60

    文章

    9534

    瀏覽量

    169316
  • gpu
    gpu
    +關注

    關注

    27

    文章

    4470

    瀏覽量

    127047
  • 圖像識別
    +關注

    關注

    8

    文章

    452

    瀏覽量

    37991
  • Gaudi2
    +關注

    關注

    0

    文章

    13

    瀏覽量

    64
收藏 人收藏

    評論

    相關推薦

    英特爾Gaudi2C處理器或為Gaudi2的簡化版,Gaudi3預計2024年面世

    對于Gaudi2C和Gaudi2之間的差別,有推測認為它可能是“部分”改動后的產品,針對中國市場專門定制。Tomshardware則猜測可能是Gaudi2的簡化版。
    的頭像 發表于 12-20 13:44 ?681次閱讀

    今日看點丨傳英特爾將推Gaudi2降規版搶攻中國大陸市場;搭載自研電競芯片,iQOO 12系列發布

    1. 美國升級AI 芯片禁令,傳英特爾將推Gaudi2 降規版搶攻中國大陸市場 ? 美國加強對華人工智能(AI)芯片管制,英特爾率先應變提出對策。英特爾供應鏈透露,
    發表于 11-08 11:35 ?575次閱讀
    今日看點丨傳<b class='flag-5'>英特爾</b>將推<b class='flag-5'>Gaudi2</b>降規版搶攻中國大陸市場;搭載自研電競芯片,iQOO 12系列發布

    #高通 #英特爾 #Elite 高通X Elite芯片或終結蘋果、英特爾的芯片王朝

    高通英特爾蘋果
    深圳市浮思特科技有限公司
    發布于 :2023年10月27日 16:46:07

    有消息透露稱,英特爾Gaudi 2處理器訂單增多,Gaudi 3預計明年上市

    此前有消息稱,今年 7月,英特爾面向中國市場推出了一款全新的 Gaudi2處理器,主要應用于加速 AI訓練及推理。而今這款“特供版”AI處理器Gaudi 2訂單增多,現已向臺積電追加該類型產品。
    的頭像 發表于 09-20 10:50 ?705次閱讀

    Gaudi2夾層卡HL-225B數據表

    高迪第二代Al深度學習夾層卡HL-225B專為數據中心的大規模擴展而設計。訓練處理器基于第一代高迪的高效架構,目前采用7nm工藝技術,在性能、可擴展性和能效方面實現飛躍。Gaudi2夾層卡符合oCP
    發表于 08-04 07:54

    HLS-GAUD12深度學習服務器數據資料

    相關聯,該架構專門為Al培訓和推理而構建,并且能夠使用標準接口和fuil軟件包、參考模型和操作指南擴展到大量處理器。 8個Gaudi2板卡內部互連,使用從每個Gaudi2到其他7個處理
    發表于 08-04 06:58

    英特爾媒體加速器參考軟件Linux版用戶指南

    英特爾媒體加速器參考軟件是用于數字標志、交互式白板(IWBs)和亭位使用模型的參考媒體播放器應用軟件,它利用固定功能硬件加速來提高媒體流速、改進工作量平衡和資源利用,以及定制的圖形處理股(GPU)管道解決方案。該用戶指南將介紹
    發表于 08-04 06:34

    Gaudi2架構和軟件的全面解釋

    ,Gaudi2以其架構為基礎,為數據中心和云的深度學習帶來了新的性能和效率。 Gaudi2由SynapseAI?軟件套件支持,該軟件套件與TensorFlow和PyTorch框架集成。我們在哈瓦那的GitHub
    發表于 08-04 06:15

    gpt-4怎么用 英特爾Gaudi2加速卡GPT-4詳細參數

    介紹GPT-4 詳細參數及英特爾發布 Gaudi2 加速器相關內容,對大模型及 GPU 生態進行探討和展望。
    發表于 07-21 10:50 ?682次閱讀
    gpt-4怎么用 <b class='flag-5'>英特爾</b><b class='flag-5'>Gaudi2</b>加速卡GPT-4詳細參數

    英特爾面向中國市場發布Gaudi2處理器,加速大模型訓練和推理

    推出的Gaudi2?AI加速器,將通過其合作伙伴浪潮提供給中國客戶。 ? Gaudi2在訓練和推理上的出色表現 ? 英特爾此次推出的Gaudi2深度學習加速器暨
    的頭像 發表于 07-17 00:01 ?1336次閱讀
    <b class='flag-5'>英特爾</b>面向中國市場發布<b class='flag-5'>Gaudi2</b>處理器,加速大模型訓練和推理

    英特爾全新Gaudi2處理器面世中國市場,加速大規模深度學習訓練與推理

    7月11日,英特爾AI產品戰略暨Gaudi2新品發布會在京舉行。會上,英特爾正式于中國市場推出第二代Gaudi深度學習加速器——Habana ?Ga
    的頭像 發表于 07-14 20:10 ?406次閱讀
    <b class='flag-5'>英特爾</b>全新<b class='flag-5'>Gaudi2</b>處理器面世中國市場,加速大規模深度學習訓練與推理

    英特爾推出AI加速器性價比產品Gaudi2

    在兩項測試中,Gaudi2均使用了英特爾推出的 SynapseAI1.10套件和OptimumHabana1.6;其中前者是面向Gaudi系列加速卡的SDK開發套件,能夠對TensorFlow和Pytorch等流行框架提供支持,
    的頭像 發表于 07-14 16:42 ?692次閱讀
    <b class='flag-5'>英特爾</b>推出AI加速器性價比產品<b class='flag-5'>Gaudi2</b>

    【機器視覺】歡創播報 | 英特爾發布Gaudi2爭奪AI芯片市場

    1 英特爾發布Gaudi2爭奪AI芯片市場 7月11日,英特爾面向中國市場推出了AI芯片 Habana Gaudi 2,Gaudi 2直接對
    的頭像 發表于 07-13 11:21 ?418次閱讀

    為深度學習而生,英特爾全新Gaudi2處理器正式登陸中國

    英特爾AI產品戰略暨Gaudi2新品發布會在京舉行。會上,英特爾正式于中國市場推出第二代Gaudi深度學習加速器——Habana? Gaudi
    的頭像 發表于 07-13 09:48 ?573次閱讀

    英特爾發布中國定制版大模型專用芯片Gaudi2,用性價比挑戰英偉達

    在性能方面,這款中國定制版訓練最主要的性能裁剪在于網絡端口。Gaudi2有21個百兆端口,而國際版有24個。不過,英特爾Habana Labs首席運營官Eitan Medina表示,“從客戶使用情況來看,預計影響會非常小”。
    的頭像 發表于 07-12 14:40 ?448次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>