電子發燒友網報道(文/周凱揚)從近年來新發布的超算機器和新的HPC AI性能榜單可以看出,AI算力已經在超算中成了不可忽視的性能指標之一,但也為廠商帶來了更大的成本挑戰。比如微軟近期就爆出和OpenAI合作,打造一個千億美元級別的超算系統。
千億美元打造AI超算
根據外媒報道,此次打造的千億美元超算系統名為Stargate,星門。這一超算系統僅僅只是微軟和OpenAI一系列數據中心合作項目之一,但造價已經高到離譜了。從規模上看,這個超算的硬件配置已經到了遠超現有系統的程度。據爆料,星門將集成百億個最新的英偉達GPU,造價可能會達到1150億美元。不過在互聯方案上,微軟可能會跳過英偉達的InfiniBand專用方案,而采用更加通用以太網方案。
當然了,雖然總成本較高,但微軟并沒有一次建成的部署策略,而是分拆成五個階段,整個項目在2028年成功建成。這樣可以盡早讓該系統投入使用,畢竟對于新的模型而言,率先發布才不會錯失市場機會。這或許也與微軟采用通用的以太網方案有關,畢竟面對跨度如此長的方案而言,專用方案很可能會面臨被兼容性差和被淘汰的局面。微軟預計會在第四階段,也就是2026年左右,正式啟用這一超算系統。
除此之外,超算的部署地點依然待定,這無疑與部署地的電網供電能力息息相關,當地政府如果能提供支持自然最好。不過從硬件規模來看,單系統的耗電已經達到千兆瓦級,無論是對美國哪個州而言,都是巨大的供電挑戰。也正因如此,微軟正在考慮核能在內的其他替代能源方案。
超算部署成本發生的變化
時至今日,微軟已經在OpenAI上花了130億美元,使用其數據中心來為ChatGPT之類的應用提供硬件支持。但此次的星門項目更是規模浩大,這也說明了新模型的訓練和推理,仍在對數據中心的硬件提出新的要求,需要用性能更強的AI超算來解決。
但這并不意味著普遍的超算成本真的有這么夸張的變化,要知道目前TOP500上排名第一的超算Frontier,其成本也只有6億美元。對于科研專用的單個超算系統而言,雖然造價不算低,但在政府的科研經費支持下,研究機構還是可以負擔起的。
不過值得注意的是,TOP500上的超算都有公開的跑分成績,為了實現這樣的成績,需要一定時間的優化,再運行一段時間的測試才會有此成績。而市面上,尤其是在不少大型互聯網公司內部,也存在并沒有公開提交成績的超算,因為這類系統幾乎是從誕生起就被投入商業使用了。
所以市面上肯定有超過6億美元的超算系統,比如Meta就在幾個月前打造了兩套系統,分別集成了2萬個H100 GPU,總成本在10億美元以上。其他的互聯網公司,諸如國內的百度、騰訊等,想必也有龐大的硬件購買計劃。
寫在最后
隨著HPC與AI在需求和計算負載上的融合,市場趨勢從前幾年的“帶AI功能的HPC系統”變成了“同樣可以用于HPC的AI系統”。但從其規模來看,對于HPC市場也未嘗不是一件好事,畢竟目前AI超算的商業價值更高,能夠吸引到更多的投資和補貼,也有望進一步推動HPC硬件的革新速度。
-
AI
+關注
關注
87文章
26443瀏覽量
264041 -
HPC
+關注
關注
0文章
279瀏覽量
23418 -
超算
+關注
關注
1文章
109瀏覽量
8972
發布評論請先 登錄
相關推薦
評論