<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

開放加速規范AI服務器的設計方法

智能計算芯世界 ? 來源:智能計算芯世界 ? 2023-09-01 14:57 ? 次閱讀

當前語言大模型的參數量已達千億以上,訓練數據集的規模也達到了TB級別。業界典型的自然語言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。如果用“算力當量”(PetaFlops/s-day,PD),即每秒千萬億次的計算機完整運行一天消耗的算力總量來表征大模型的算力需求,具有1750億參數的GPT-3模型的訓練算力需求為3640PetaFlop/s-day。

參數量為2457億的源1.0大模型訓練算力消耗為4095Peta-Flop/s-day。大模型的高效訓練通常需要具備千卡以上高算力AI芯片構成的AI服務器集群支撐。在全球科技企業加大投入生成式AI研發和應用的大背景下,配置高算力AI芯片的AI服務器需求也不斷高漲。

2019年OCP成立OAI小組,對更適合超大規模深度學習訓練的AI加速卡形態進行了定義,目的是為了支持更高功耗、更大互連帶寬AI加速卡的物理和電氣形態,同時為了解決多元AI加速卡形態和接口不統一的問題。隨后,為了進一步促進OAI生態的建立,OAI小組在OAM的基礎上統一了AI加速卡基板OAI-UBB設計規范。OAI-UBB規范以8張OAM為一個整體,進一步定義了8xOAM的Baseboard的主機接口、供電方式、散熱方式、管理接口、卡間互連拓撲、Scale Out方式。

2019年底,OCP正式發布了OAI-UBB1.0設計規范,并隨后推出了基于OAI-UBB1.0規范的開放加速硬件平臺,無需硬件修改即可支持不同廠商的OAM產品。

面向生成式AI的大模型算力系統的構建是一項復雜的系統工程,基于上述設計原則,以提高適配部署效率、提高系統穩定性、提高系統可用性為目標,進一步歸納總結出開放加速規范AI服務器的設計方法。

wKgZomTxi3uAZfYNAAIISgCN_b0077.png

面向AIGC的計算系統交付模式不再是單一服務器,絕大多數情況最終部署的形式是包含計算、存儲、網絡設備,軟件、框架、模型組件,機柜、制冷、供電、液冷基礎設施等在內的一體化高集成度算力集群。

(1)系統架構

為滿足大模型訓練模型參數規模的不斷增大給模型訓練帶來的計算、存儲、通信等方面的挑戰,系統架構設計將賦能AI服務器節點和服務器集群以超大規模集群互連的大模型訓練能力。OAM 是 OCP-OAI 小組制定的 AI加速模塊接口規范,現已發布 OAM v1.5 規范,OAM 模塊承擔起單個 GPU 節點的 AI 加速計算能力,通過符合 UBB v1.5 base 規范的基板完成OAM間的 7P × 8 FC(Fully Connect,全互連)、6P × 8 HCM(Hybrid cubic mesh,混合立方互連)等高速互連拓撲實現多OAM數據低延時共享,利用RDMA網絡部署等優化通過OSFP/QSFP-DD線纜實現對外拓展完成集群互連,突破了服務器集群在GPU計算資源、通信效率上的瓶頸,最大程度發揮OAM計算性能并降低通信帶寬限制。OAM模塊透過 PCIe Switch 通過4條PCIe x 16與高性能CPU建立起高速高帶寬數據通道,并支持搭配32條RDIMM或LRDIMM內存,以最大程度的保障OAM與CPU之間的數據通信處理需求。

wKgZomTxi3uAUDk6AADYQcN1mf8136.png

(2)OAM模塊

OAM規范由OCP-OAI建立,定義了開放硬件計算加速模塊的結構形態及互連接口,簡化了OAM模塊間高速通信鏈路互連,以此促進跨加速器通信的可擴展性。CPU與OAM 間的連接是透過 PCIe Switch 上行與CPU 4條PCIe x16帶寬完成,極大程度增加CPU與OAM之間的數據通信數量,避免大數據量AI訓練場景中CPU與OAM間數據通信出現瓶頸。支持節點內及節點間OAMP2P高速互連,OAM之間全互連拓撲改善了多OAM數據共享的延遲情況,為計算提供更高效的性能。

(3)UBB基板

UBB基板能夠承載支持8個OAM模塊,形成一個AI加速計算子系統。UBB尺寸為16.7×21英寸,搭配UBB的機型可以放置于19英寸或21英寸機柜之中。UBB基板上的8個OAM模塊通過可以通過OAM設計規范中的不同互連拓撲進行互連。UBB鏈路可以被拆分為×8鏈路,如果所有7個端口對配置成×16將無法完成對外拓展,因此為實現節點對外拓展形成互連集群,UBB基板將互連鏈路限制在×8以內,并默認設計端口1的后半部分(×8,通常稱為1H端口)被用作對外拓展端口。

4)硬件設計

UBB基板及OAM硬件設計應遵從UBB規范及OAM規范中的各項硬件規范、電氣規范、時序規范等。遵從UBB規范中對OAM布局的規范。

wKgaomTxi3uARbe6AAJNe3ArOrE514.png

OAM 互連拓撲損耗評估標準。對 OAM 互連所涉及的56Gbps PAM信號進行信號完整性設計,包括高速走線參考平面設計、高噪聲電源區域走線、過孔stub及層面規劃、走線間距、過孔間串擾控制等。OAM之間互連信號,整體損耗在基頻處要求在30dB 以內,其中OAM 的 TX & RX 模組損耗需 控 制 在 8dB 以 內 , C a b l e 拓 撲 要 求QSFP-DD assembly 線纜損耗在5dB以內,PCB 損耗根據拓撲具體計算即可。

wKgZomTxi3uAVQoeAAH0_usgM8g607.png

(5)散熱設計

風冷散熱:服務器節點風冷散熱使用高效能風扇墻設計,并采用側邊防回流設計以增大相同風扇轉速下的系統風量。采用導風罩設計的基礎上增加OAM、CPU區域多風道隔離設計,能夠結合區域感溫能力實現分區散熱。風扇全部支持熱插拔,支持N+1轉子冗余,支持風扇速度智能調節。針對UBB基板及OAM模塊,進行散熱器性能的熱阻值參數設計。

(6)系統管理

OAM模塊的系統管理方面的設計包含提供資產信息、規范寄存器,并支持滿足FW更新、帶外監控要求功能。資產信息提供對OAM模塊PN、SN、FW版本等信息的訪問;寄存器信息提供對電壓、功耗、溫度、ECC狀態及錯誤、外設錯誤、PCIe錯誤、Memory錯誤等信息的訪問;帶外監控提供溫度、功耗、OAM模塊信息、異常告警、OAM狀態、卡復位等功能。

(7)故障診斷

故障診斷功能包含OAM卡內部Uncorrect able Error、PCIe 總線錯誤、ESL 連接異常、卡丟失等功能。通過BMC可監控系統PCIeSwitch模塊、UBB基板及OAM模塊的ECC狀態及錯誤、外設錯誤、PCIe錯誤、Memory錯誤等。支持鏈路級別的高級故障診斷功能,通過全時監測PCIe Switch運行日志獲取OAM卡故障信息。

(8)軟件平臺

針對大模型開發過程中存在的調度難、部署慢、效率低、集群異常等問題,構建具備高性能、高可靠、可擴展的AI算力資源統一管理和人工智能作業調度平臺,通過計算資源池化和容器化技術,屏蔽底層硬件差異,以標準算力模式面向用戶直接提供計算資源,并通過適應性策略及敏捷框架對算力進行精準調度配給。

本文來自“開放加速規范AI服務器設計指南(2023)”,以上分享了系統架構、OAM模塊、UBB基板、硬件設計、散熱設計、系統管理、故障診斷、軟件平臺;集群網絡與存儲、整機柜、液冷、制冷、運維等相關規范詳情,請下指南原文。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 服務器
    +關注

    關注

    12

    文章

    8271

    瀏覽量

    83062
  • AI
    AI
    +關注

    關注

    87

    文章

    27061

    瀏覽量

    264829
  • 計算系統
    +關注

    關注

    0

    文章

    37

    瀏覽量

    10242
  • GPT
    GPT
    +關注

    關注

    0

    文章

    326

    瀏覽量

    15032
  • 大模型
    +關注

    關注

    2

    文章

    1804

    瀏覽量

    1393

原文標題:開放加速AI服務器規范設計(2023)

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    RISC-V走向開放服務器規范

    RISC-V International目前正在起草一份可以標準化RISC-V服務器芯片和系統開發的規范,RISC-V International是一個處理指令集架構開發的組織。
    的頭像 發表于 08-10 09:39 ?505次閱讀
    RISC-V走向<b class='flag-5'>開放</b><b class='flag-5'>服務器</b><b class='flag-5'>規范</b>

    ChatGPT熱潮引發AI服務器爆單

    、FPGA、ASIC等加速芯片,利用CPU與加速芯片的組合可以滿足高吞吐量互聯的需求,為自然語言處理、計算機視覺、機器學習等AI應用場景提供強大的算力支持,支撐AI算法訓練和推理。 ?
    的頭像 發表于 02-22 01:13 ?1803次閱讀

    Arm芯片引領國產服務器逆襲?

    設計。通過多年的技術沉淀和探索,Arm64服務器以其多核、多線程,持續提升的單核性能,并通過開放架構、開放接口支持CPU和各類加速器的異構計算,被越來越多的客戶和廠商認為是構建綠色計算
    發表于 06-03 13:20

    游戲加速服務器租用選擇美國大帶寬服務器的優點

    1.美國游戲加速服務器雙向直連線路讓速度更快: 選擇游戲加速服務器,首先看的就是服務器所在機房的線路。對于線路上,大部分人都知道電信網通兩條
    發表于 12-18 09:26

    淺析Tomcat服務器

    Tomcat服務器是一個免費的開放源代碼的Web應用服務器。因為Tomcat技術先進、性能穩定且免費,所以深受Java愛好者的喜愛并得到了部分軟件開發商的認可,成為目前比較流行的Web應用服務
    發表于 07-16 06:23

    Firefly集群服務器解決方案

    服務器,而隨著人們對服務器工作負載模式的新需求,越來越多的智能場景需要小型服務器來部署。方案簡介集群服務器解決方案,以多塊核心板的組合方式,提供標準的軟硬件接口,支持分布式
    發表于 08-16 15:09

    基于SRAM的方法可以加速AI推理

    基于SRAM的方法加速AI推理
    發表于 12-30 07:28

    什么是Boa服務器

    嵌入式web服務器Boa的移植什么是Boa服務器BOA 服務器是一個小巧高效的web服務器,是一個運行于unix或linux下的,支持CGI的、適合于嵌入式系統的單任務的http
    發表于 12-14 07:21

    Tomcat服務器簡介

    簡介簡介Tomcat服務器是一個開放源碼的輕量級Web應用服務器,非常適合搭建微服務應用。Embedded Tomcat嵌入式Tomcat服務器
    發表于 12-16 08:24

    OPC服務器開發的幾種方法

    簡要介紹了OPC DA 規范,描述了OPC DA(數據訪問)服務器開發的三種方法:使用MFC 的COM 庫函數開發OPC 服務器、通過ATL 開發OPC
    發表于 05-26 15:00 ?26次下載

    服務器的開關電源規范設計標準

    是SS規范。SS?。?Server System Infrastructure)規范是 Intel聯合一些主要的AI架構服務器生產商推出的新型服務器
    發表于 12-24 08:00 ?15次下載

    AI服務器的應用場景有哪些?

    關鍵詞:人工智能、高性能計算、HPC、GPU、CPU、服務器、人工智能服務器、人工智能工作站、深度學習、機器學習、液冷散熱、冷板式液冷、水冷工作站、液冷服務器、AI
    的頭像 發表于 01-30 10:06 ?1949次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>服務器</b>的應用場景有哪些?

    一文解析AI服務器技術 AI服務器和傳統通用服務器的區別

    AI服務器和傳統通用服務器在設計方案上主要區別在于對高性能計算資源、內存和存儲、網絡連接(PCB)、電源管理等。AI服務器為應對
    發表于 04-14 10:41 ?8206次閱讀

    開放加速規范AI服務器設計指南》發布,應對生成式AI算力挑戰

    》面向生成式AI應用場景,進一步發展和完善了開放加速規范AI服務器的設計理論和設計
    的頭像 發表于 08-14 09:49 ?560次閱讀

    使用NVIDIA Triton推理服務器加速AI預測

    這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務器加速 AI 預測。
    的頭像 發表于 02-29 14:04 ?299次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>