AI大模型瘋長，存儲扛住了嗎？-電子發燒友網

科技云報道原創。

AI大模型正在倒逼數字基礎設施產業加速升級。

過去一年半，AI大模型標志性的應用相繼出現，從ChatGPT到Sora一次次刷新人們的認知。震撼的背后，是大模型參數指數級的增長。

這種數據暴漲的壓力，快速傳導到了大模型的底層基礎設施。作為支撐大模型的底座“三大件”——算力、網絡、存儲，都在快速的迭代。

算力方面，英偉達用了兩年的時間就將GPU從H100升級到了H200，讓模型的訓練性能提升了5倍。

網絡方面，從之前的25G升級到現在的200G，網絡帶寬提升了6倍。隨著RDMA大規模的應用，網絡延遲也降低了60%。

存儲方面，華為、阿里云、百度智能云、騰訊云等大廠，都相繼推出了面向AI大模型的存儲方案。

那么作為基礎設施的三大件之一的存儲，在AI大模型的場景下到底發生了哪些變化？又有哪些新的技術挑戰？

AI大模型帶來的存儲挑戰

算力、算法、數據，在發展AI過程中的重要性早已為人所熟知，但是作為數據的承載，存儲卻往往被忽略。

在訓練AI大模型的過程中，需要大量數據的交換，存儲作為數據的基礎硬件，并非僅僅只是簡單地記錄數據，而是深刻參與到了數據歸集、流轉、利用等大模型訓練的全流程。

如果存儲性能不強，那么可能需要耗費大量時間才能完成一次訓練，這就會嚴重制約大模型的發展迭代。

事實上，不少企業在開發及實施大模型應用過程中，已經開始意識到存儲系統所面臨的巨大挑戰。

從AI大模型的研發生產流程看，可分為數據采集、清洗、訓練和應用四個階段，各階段都對存儲提出了新的要求，比如：

在數據采集環節，由于原始訓練數據規模海量，且來源多樣，企業希望能夠有一個大容量、低成本、高可靠的數據存儲底座。

在數據清洗階段，網絡上收集的原始數據是不能直接用于AI模型訓練的，需要將多格式、多協議的數據進行清洗、去重、過濾、加工，行業內稱其為“數據預處理”。

與傳統單模態小模型訓練相比，多模態大模型所需的訓練數據量是其1000倍以上，一個典型的百TB級大模型數據集，預處理時長超過10天，占比AI數據挖掘全流程的30%。

同時，數據預處理伴隨高并發處理，對算力消耗巨大。這就要求存儲能夠提供多協議、高性能的支持，用標準文件的方式完成海量數據的清洗和轉換，以縮短數據預處理的時長。

在模型訓練環節，通常會出現訓練集加載慢、易中斷、數據恢復時間長等問題。

相較于傳統學習模型，大模型訓練參數、訓練數據集指數級增加，如何實現海量小文件數據集快速加載，降低 GPU等待時間是關鍵。

目前，主流預訓練模型已經有千億級參數，而頻繁的參數調優、網絡不穩定、服務器故障等多種因素帶來訓練過程不穩定，易中斷返工，需要Checkpoints機制來確保訓練回退到還原點，而不是初始點。

當前，由于Checkpoints需要天級的恢復時長，導致大模型整體訓練周期陡增，而面對單次超大的數據量和未來小時級的頻度要求，需要認真考慮如何降低Checkpoints恢復時長。

因此，存儲能否快速地讀寫checkpoint（檢查點）文件，也成了能否高效利用算力資源、提高訓練效率的關鍵。

在應用階段，存儲需要提供比較豐富的數據審核的能力，來滿足鑒黃鑒暴安全合規的訴求，保證大模型生成的內容是合法、合規的方式去使用。

總的來說，AI大模型訓練的效率要達到極致，減少不必要的浪費，必須在數據上下功夫。準確地說，必須要在數據存儲技術上進行創新。

AI倒逼存儲技術創新

根據投資機構ARK Invest預算，到2030年，產業有望訓練出比GPT-3多57倍參數、多720倍Token的AI模型，成本將從今天的170億美元降至60萬美元。隨著計算價格降低，數據將成為大模型生產的主要限制因素。

面對數據桎梏問題，不少企業已經開始進行前瞻性布局。

比如百川智能、智譜、元象等大模型企業，都已采用騰訊云AIGC云存儲解決方案來提升效率。

數據顯示，騰訊云AIGC云存儲解決方案，可將大模型的數據清洗和訓練效率均提升一倍，需要的時間縮短一半。

科大訊飛、中科院等大模型企業和機構，則采用了華為AI存儲相關產品。

數據顯示，華為OceanStor A310可實現從數據歸集、預處理到模型訓練、推理應用的AI全流程海量數據管理，簡化數據歸集流程，減少數據搬移，預處理效率提升30%。

目前，國內各大廠商也相繼發布了面向AI大模型場景的存儲方案。

2023年7月，華為發布兩款面向AI大模型的存儲產品——OceanStor A310深度學習數據湖存儲和FusionCube A3000訓/推超融合一體機。

2023年11月云棲大會上，阿里云推出一系列針對大模型場景的存儲產品創新，用AI技術賦能AI業務，幫助用戶更輕松地管理大規模多模態數據集，提高模型訓練、推理的效率和準確性。

2023年12月，百度智能云發布了“百度滄?！ご鎯Α苯y一技術底座，同時面向數據湖存儲和AI存儲能力進行了全面增強。

2024年4月，騰訊云宣布云存儲解決方案面向AIGC場景全面升級，針對AI大模型數據采集清洗、訓練、推理、數據治理全流程提供全面、高效的云存儲支持。

綜合各大廠商的存儲技術創新，可以發現技術方向較為統一，都是基于AI大模型生產研發的全流程，對存儲產品進行有針對性的性能優化。

以騰訊云為例，在數據采集與清洗環節，首先需要存儲能夠支持多協議、高性能、大帶寬。

因此，騰訊云對象存儲COS能夠支持單集群管理百 EB 級別存儲規模，提供便捷、高效的數據公網接入能力，并支持多種協議，充分支持大模型PB級別的海量數據采集。

同時，數據清洗時，大數據引擎需要快速地讀取并過濾出有效數據。騰訊云對象存儲COS通過自研數據加速器GooseFS提升數據訪問性能，實現了高達數TBps的讀取帶寬，支撐計算高速運行，大大提升數據清洗效率。

在模型訓練環節，通常需要每2-4小時保存一次訓練成果，以便能在GPU故障時時能回滾。

騰訊云自主研發并行文件存儲CFS Turbo ，面向AIGC訓練場景的進行了專門優化，每秒總讀寫吞吐達到TiB/s級別，每秒元數據性能高達百萬OPS，均為業界第一。3TB checkpoint 寫入時間從10分鐘，縮短至10秒內，使大模型訓練效率大幅提升。

大模型推理場景對數據安全與可追溯性提出更高要求。

騰訊云數據萬象CI為此提供圖片隱式水印、AIGC內容審核、智能數據檢索MetaInsight等能力，為數據生產從“用戶輸入——預處理——內容審核——版權保護——安全分發——信息檢索”業務全流程提供有力支撐，優化AIGC內容生產與管理模式，順應監管導向，拓寬存儲邊界。

同時，隨著訓練數據和推理數據的增長，需要提供低成本的存儲能力，減少存儲開銷。騰訊云對象存儲服務提供了高達12個9的數據持久性和99.995%的數據可用性，能夠為業務提供持續可用的存儲服務。

總的來說，隨著AI大模型的推進，數據存儲出現了新的趨勢。市場渴望更高性能、大容量、低成本的存儲產品，并加速大模型各個環節的融合和效率提升。

而各大廠商也在通過技術創新不斷滿足大模型各環節的需求，為企業實施大模型降低門檻。

在AI大模型的倒逼下，存儲創新已在路上。

【關于科技云報道】

專注于原創的企業級內容行家——科技云報道。成立于2015年，是前沿企業級IT領域Top10媒體。獲工信部權威認可，可信云、全球云計算大會官方指定傳播媒體之一。深入原創報道云計算、大數據、人工智能、區塊鏈等領域。

審核編輯黃宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

存儲

存儲

+關注

關注
12

文章
3892

瀏覽量
84794
AI

AI

+關注

關注
87

文章
26909

瀏覽量
264693
騰訊云

騰訊云

+關注

關注
0

文章
196

瀏覽量
16640
AIGC

AIGC

+關注

關注
1

文章
279

瀏覽量
1109
大模型

大模型

+關注

關注
2

文章
1783

瀏覽量
1363

發布于 :2024年03月18日 15:18:29

使用cube-AI分析模型時報錯的原因有哪些？

使用cube-AI分析模型時報錯，該模型是pytorch的cnn轉化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.

發表于 03-14 07:09

AI大模型可以取代大學教育嗎？

AI大模型

電子發燒友網官方

發布于 :2024年01月02日 16:27:52

AI大模型怎么解決芯片過剩?

AI大模型

電子發燒友網官方

發布于 :2024年01月02日 15:42:05

AI大模型會不會取代電子工程師?

AI大模型

電子發燒友網官方

發布于 :2024年01月02日 15:11:43

AI大模型可以設計電路嗎?

AI大模型

電子發燒友網官方

發布于 :2024年01月02日 15:09:29

發布于 :2023年09月22日 18:14:44

訓練好的ai模型導入cubemx不成功怎么解決？

訓練好的ai模型導入cubemx不成功咋辦，試了好幾個模型壓縮了也不行，ram占用過大，有無解決方案？

發表于 08-04 09:16

AI大模型的存儲焦慮，如何被曙光消除？

大模型

腦極體

發布于 :2023年07月21日 22:37:10

華為發布大模型時代ai存儲技術

OceanStor A310深度學習數據湖存儲，面向基礎/行業大模型數據湖場景，實現從數據歸集、預處理到模型訓練、推理應用的AI全流程海量數據管理。

發表于 07-21 14:51 ?440次閱讀

華為發布大模型時代AI存儲新品

7月14日，華為發布大模型時代AI存儲新品，為基礎模型訓練、行業模型訓練，細分場景模型訓練推理

發表于 07-14 15:20 ?586次閱讀

搜索歷史

AI大模型瘋長，存儲扛住了嗎？

評論

STM CUBE AI錯誤導入onnx模型報錯的原因？

防止AI大模型被黑客病毒入侵控制（原創）聆思大模型AI開發套件評測4

AI大模型遠程控制啟動車輛（原創）

使用cube-AI分析模型時報錯的原因有哪些？

AI大模型可以取代大學教育嗎？

AI大模型怎么解決芯片過剩?

AI大模型會不會取代電子工程師?

AI大模型可以設計電路嗎?

中科曙光推出AI大模型存儲解決方案

AI大模型對數據存儲技術的發展趨勢

AI新新人類現身，知識庫存儲給予大模型“大腦”，開箱即用的大模型長啥樣？

訓練好的ai模型導入cubemx不成功怎么解決？

AI大模型的存儲焦慮，如何被曙光消除？

華為發布大模型時代ai存儲技術

華為發布大模型時代AI存儲新品

搜索歷史

AI大模型瘋長，存儲扛住了嗎？

評論

AI大模型瘋長，存儲扛住了嗎？