去年11月,Nvidia憑借一款名為Eos的系統突然出現在全球最快超級計算機500強榜單的第9位,引起了一些人的注意。Eos是以每天打開(kāi)黎明大門(mén)的希臘女神命名的,是英偉達的企業(yè)級AI訓練系統,該公司現在首次發(fā)布了一段視頻向公眾展示它。
Eos本質(zhì)上是英偉達自己的超級計算機,員工每天都可以用它來(lái)進(jìn)行AI訓練,或者在午休時(shí)間玩《孤島危機》。它包括一個(gè)由576臺DGX H100服務(wù)器組成的集群,由于每臺服務(wù)器都有8個(gè)H100 GPU,因此總共有4608臺H100與其Quantum-2 InfiniBand技術(shù)連接在一起。這基本上是英偉達展示其DGX SuperPod設計的極端版本,是一種企業(yè)規模的AI訓練,它希望將其出售給擁有巨額預算和大量AI模型的公司。
英偉達將Eos描述為一個(gè)可以為“AI工廠(chǎng)”提供動(dòng)力的系統,因為它是一個(gè)非常大規模的SuperPod DGX H100系統。該公司表示,正是這一點(diǎn)讓它能夠在A(yíng)I方面有所突破,并展示了英偉達最新技術(shù)在放大到超大規模時(shí)的強大功能。
DGX H100服務(wù)器使用英特爾Xeon Platinum8480C CPU,具有56核和112線(xiàn)程。與4608個(gè)H100 GPU相結合,它提供了121 PetaFLOPS的Linpack性能,僅足以在Top500中排名第9,但這更像是一個(gè)通用指標。如果純粹以AI訓練來(lái)衡量,它很容易成為目前世界上最快的系統之一。
當該系統去年首次亮相時(shí),英偉達展示了比之前基于A(yíng)mpere的A100系統的巨大改進(jìn)。例如,在一個(gè)模擬訓練GPT-3模型的測試中,Eos只花了4分鐘,而基于A(yíng)100的系統花了11分鐘。然而,之前的系統只使用512個(gè)GPU,而Eos更大、使用更強大的GPU,所以預期會(huì )有顯著(zhù)的提升。
然而,我們在研究英偉達的最新聲明時(shí)發(fā)現了一個(gè)差異。早在2023年11月,英偉達就表示Eos配備了10,752個(gè)H100GPU。在最新的公告中,這個(gè)數字已經(jīng)減少到4608,所以我們不確定發(fā)生了什么變化,或者Eos是否已經(jīng)縮小了一些。
我們通過(guò)電子郵件向英偉達尋求澄清,一位發(fā)言人回應說(shuō):“為了提供一些清晰的信息,用于MLPerf LLM訓練的超級計算機具有10,752個(gè)H100 GPU,是使用相同DGX SuperPOD架構構建的不同系統。在2023年TOP500榜單上排名第九的系統是現在博客和視頻中介紹的4608 GPU Eos系統?!?/p>
當問(wèn)及為什么這兩個(gè)系統都被命名為Eos時(shí),發(fā)言人回答說(shuō):“我們在Eos一代中部署了多個(gè)系統,它們都基于相同的NVIDIA DGX SuperPOD架構?!?/p>
審核編輯:黃飛
-
超級計算機
+關(guān)注
關(guān)注
2文章
448瀏覽量
41660 -
AI
+關(guān)注
關(guān)注
87文章
27208瀏覽量
264963 -
英偉達
+關(guān)注
關(guān)注
22文章
3484瀏覽量
88884
原文標題:揭秘:英偉達用于A(yíng)I訓練的Eos超級計算機!
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關(guān)注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論