AI狂飆突進，存力需作先鋒-電子發燒友網

5月30日，在2023中關村論壇成果發布會上，《北京市加快建設具有全球影響力的人工智能創新策源地實施方案（2023-2025年）》正式發布?！秾嵤┓桨浮芬?，支持創新主體重點突破分布式高效深度學習框架、大模型新型基礎架構等技術，著力推動大模型相關技術創新。

這被業界視為中國將強力推動大模型發展的又一力證。事實上，近期從中央各部委到地方省、市，對于發展AI技術，把握大模型機遇的政策傾斜度不斷上升，無論是政策出臺密度還是整體戰略高度，都達到了驚人的水平。

有理由相信，中國將實現一場以大模型為突破點的AI狂飆突進。自2017年開啟新一代人工智能發展戰略以來，中國將在目前機遇窗口中得到再發展，推動AI產業全面爆發。

我們都知道，抓住AI發展機遇，需要以技術突破與基礎設施建設為基礎，而提到AI產業的基礎設施，普遍會提到AI芯片、深度學習框架、預訓練大模型，卻經常會忽略另一個關鍵問題：大模型將帶來巨大的數據壓力，數據存儲也是AI發展進程中的支柱。

ChatGPT是這一輪AI爆發的引線，而接下來大模型規?；瘧脦淼臄祿y題，其實也早已寫在了ChatGPT當中。

面對這種即將到來的壓力，中國存力準備好了嗎？

從ChatGPT看AI崛起帶來的數據挑戰

從2018年谷歌發布BERT，業界開啟了預訓練大模型之路。大模型的特點是訓練數據規模與模型參數龐大，這將給存儲帶來嚴峻考驗，這一點在ChaGPT中也展現無疑。

預訓練大模型所謂的“大”，體現在模型的深度學習網絡層數多、鏈接多、參數復雜，以及訓練所用數據集種類更復雜，數據數量更豐富。在深度學習算法剛剛誕生時，主流模型只有幾百萬參數，而BERT發布時模型參數就已經過億，將深度學習推進到了大模型階段。到了ChatGPT這個階段，主流模型已經有幾千億參數，甚至業界已經開始規劃萬億模型。幾年時間里，AI模型的參數提升幾千倍，如此龐大的數據與模型都需要進行存儲，這就成了AI爆發給存儲的第一大考驗。

此外，大家目前會廣泛提到AI大模型采用了全新的模型結構，因此對非結構化數據會有更好的吸收效果與魯棒性，這對于AI最終效果非常重要，但也帶來一個衍生問題：我們需要妥善處理存儲和調用海量的非結構化數據。比如說，ChatGPT在升級后加入了識圖等多模態能力，因此其訓練數據也需要在文本基礎上加入大量圖片，再比如自動駕駛車輛，每天要將大量實地測試視頻存儲起來作為模型訓練依據。這些非結構化數據，帶來了AI相關數據的海量增長，也帶來了存儲和處理這些數據的難題。

據統計，當前全球新增數據有80%都是非結構化數據，年復合增長率達到38%，應對多元化的數據激增，已經成為大模型時代必須克服的困難。

還有一個問題，大模型往往需要頻繁讀取和調用數據。ChatGPT的數據訪問使用量達到單月17.6億次，平均響應速度在10秒以內，并且AI模型的工作流程包括采集、準備、訓練、推理四部分，每個階段需要讀寫不同類型的數據。因此，大模型對存儲性能也帶來了要求。

此外，圍繞ChatGPT展開的一系列數據主權、數據保護爭議，也提醒我們AI大模型帶來了數據安全方面新的風險。試想一下，如果不法分子攻擊數據庫，從而令大語言模型生成錯誤信息欺騙用戶，其危害結果既嚴重且隱蔽。

綜合來看，ChatGPT雖好，但其對數據存儲的規模、性能、安全等方面都提出了挑戰。當我們致力于發展大模型和類ChatGPT應用的時候，存儲這關不得不過。

中國存力，準備好了嗎？

最近幾年，我們都在說算力就是生產力。但有算就要有存，存力的極限，也決定了數字化生產力發展的上限。

那么，在接下來必然出現的中國大模型狂飆突進中，中國存力是否已經做好準備了呢？很遺憾，從幾個方面來看，今天中國存力的準備依舊不充分，需要進一步升級和發展。我們可以一同來關注一下中國存力存在的幾個問題，看看他們是否對應了大模型帶來的數據壓力。

1.存力規模不足，限制AI產業發展上限

大模型將帶來海量數據，那么第一要務就是將這些數據進行妥善存儲。但在目前階段，中國依舊有著存力不夠，大量數據甚至無法進入存儲階段的問題。從2022年數據來看，中國數據生產量已經達到了驚人的8.1ZB，位居全球第二。但中國存力規模只有1000EB左右，這意味著數據可存儲率僅為12%，絕大多數數據無法得到有效保存。當中國已經明確數據作為第五生產要素的地位，智能化發展需要依靠數據、充分利用數據，卻有海量數據難以完成保存，這之間的問題不可謂不嚴重。中國仍然需要保持高速、大規模的存力增長，才能把握大模型帶來的AI技術發展機遇。

2.海量數據沖擊下，管理效率和存取效率低

上文討論過，AI大模型帶來的主要數據挑戰，是海量數據的管理效率和處理存取效率低。提升存取效率，要求數據以高效率、低能耗的方式完成存寫，但目前在中國仍然有75%的數據在使用機械硬盤。相對于閃存盤，機械硬盤容量密度低、數據讀取慢、能耗高、可靠性差，相對來說，全閃存具有高密度、低能耗、高性能、高可靠的一系列優點，但中國全閃存替換依舊有較長的一段路要走。

3.多重數據隱憂，導致存儲安全形勢嚴峻

數據安全問題，已經成為AI公司乃至AI產業迫切關注的問題。在2020年美國的Clearview AI公司發生數據安全事故，造成2000多家客戶的30億條數據泄露。這個案例向我們展現了AI產業的數據安全形勢十分嚴峻，我們必須從數據存儲階段開始重視安全。尤其當AI大模型在國計民生中扮演的角色愈發重要，就更需要存儲提升安全能力，以應對各種可能存在的風險。

客觀來看，中國存力已經保持了較高的發展速度，但在整體規模、全閃存占比以及技術創新能力上，依舊具有一定程度的不足。一場面向產業智能化需求與AI大規模落地的存儲升級已經時不我待。

面向智能時代，存儲產業的機遇與方向

結合ChatGPT所代表的AI大模型帶給存儲的壓力，以及中國存力本身的發展現狀，我們可以很清晰得出一個結論：中國存儲必須支撐AI崛起，完成大規模的升級。

我們可以清晰看到存儲產業的發展方向，這些方向的急迫性與廣闊空間，構成了存儲產業的重大機遇。

首先，需要擴大存力規模，加速全閃存建設。

全閃存替換機械硬盤的“硅進磁退”，是存儲產業多年來的整體發展趨勢。面對AI崛起的產業機會，中國存儲產業需要加快全閃存替代的實施與落地，最大化發揮出全閃存高性能、高可靠等優勢，以應對AI大模型帶來的數據存用需求。

此外，還必須注意的一點是全閃存化分布式存儲的機會正在加大。隨著AI大模型的崛起，非結構化數據的爆發，數據重要性正在顯著提升，同時AI已經深入到大型政企的生產核心，更多企業用戶傾向進行本地化的AI訓練，并且采用基于文件協議的數據存儲，而不是數據放到公有云平臺，這就導致分布式存儲的需求得到提升和加強。

二者結合，持續快速推動存儲產業的全閃化落地，就成為了中國存儲產業發展的核心賽道。

其次，需要提升存儲技術創新，適配AI模型的發展需求。

上文提到，AI帶來的數據考驗不僅僅是數據規模大，更是數據復雜性與應用流程多樣性的挑戰，因此存儲的先進性必須得到進一步提升。比如說，為了應對AI頻繁的數據訪問需求，存儲的讀寫帶寬和訪問效率都需要進行升級。為了配合AI大模型的數據需求，存儲產業需要進行全方位的技術升級。

在數據存儲格式方面，傳統的數據格式，比如“文件”“對象”，最初的設計意圖并不是匹配AI模型的訓練需求，并且非結構化數據的數據格式不統一，使得在AI模型調用數據的過程中，會產生大量對文件格式進行重新理解、對齊的工作，進而造成模型運行效率下降，訓練算力消耗增多。

為此，就需要在存儲側形成新的“數據范式（Data Paradigm）”。以自動駕駛訓練為例，不同類型的數據都參與到了數據訓練的進程當中，如果在存儲側采用了新的數據范式，就可以幫助各種數據統一起來，更好地適配到AI模型訓練當中，從而加速自動駕駛車輛的訓練工作。打個比方，如果把AI想象為一種新的動物，它需要吃一種新的飼料，如果把傳統格式的數據喂給它，就會產生消化不良的問題，而新數據范式，就是在存儲側構筑完全適合AI的數據，從而讓“喂養AI”的過程絲滑順暢。

在AI開發工作中，數據管理的工作量占比巨大，不同數據集之間還會存在數據孤島問題，而數據編織技術能夠效應對這些問題。通過數據編織，可以讓存儲內置數據分析能力，把物理邏輯上散布的數據整合起來，形成全局視圖化的數據調度和流動能力，從而有效管理AI帶來的海量數據，達成數據利用效率的提升。

這些存儲側的技術創新，可以讓數據存力與AI發展形成更加緊密的契合關系。

此外，需要將安全能力納入存儲本身，強化主動安全能力。

伴隨著AI發揮的價值越來越大，數據安全問題帶給企業用戶的損失也更多。因此，企業必須提升數據安全能力。其中最重要的一點是要提升數據韌性，讓存儲本身具有安全能力，從源頭上守護數據安全。接下來，更多數據韌性能力將被內嵌到數據存儲產品中，例如勒索檢測、數據加密、安全快照和AirGap隔離區恢復特征等。

值得注意的是，目前業界已經有了面向AI大模型崛起，進行存儲全面升級的探索與嘗試。華為存儲通過高質量的全閃存產品，融合先進的存儲技術、內嵌的安全能力，實現了存儲創新與AI發展的緊密契合，相向而行。

整體而言，存儲產業的發展與中國存力的進步，對于AI大模型的落地，乃至千行百業的智能化升級，都有著舉足輕重的意義。脫離了存儲的發展，AI帶來的數據洪潮將難以妥善化解，AI技術甚至可能由于缺乏數據支撐，變成無本之源，無根之木。

智能時代的機遇與責任，恰好同時擺在了存儲產業面前。在華為等優秀品牌的存力探索下，中國存儲正迎來史無前例的機會，也在承擔時代給予的責任。

很多業界專家認為，大語言模型是AI歷史上的“iPhone時刻”，那么AI技術帶來的存力升級潮，或許也將成為中國存儲產業的里程碑時刻，成為一個黃金年代的序章。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

存儲

存儲

+關注

關注
12

文章
3905

瀏覽量
84835
AI

AI

+關注

關注
87

文章
27061

瀏覽量
264832
人工智能

人工智能

+關注

關注
1780

文章
44671

瀏覽量
231532
ChatGPT

ChatGPT

+關注

關注
28

文章
1481

瀏覽量
5506
大模型

大模型

+關注

關注
2

文章
1804

瀏覽量
1393
存力

存力

+關注

關注
0

文章
21

瀏覽量
53

知存科技助力AI應用落地：WTMDK2101-ZT1評估板實地評測與性能揭秘

中得到彰顯。存算一體架構的突破傳統馮·諾依曼架構的范式探索成為重要趨勢。這種架構改變了存算分離的局面，類似于“在家辦公”一樣，消除了數據“往返通勤”的能量消耗和時間延遲，大大提高了AI算力

發表于 05-16 16:38

存內計算WTM2101編譯工具鏈資料

工藝條件下將AI計算效率提升2個數量級，充分滿足快速發展的神經網絡模型指數級增長的算力需求。 witin_mapper是知存科技自研的用于神經網絡映射的編譯軟件棧，可以將量化后的神經網絡模型映射

發表于 05-16 16:33

聯發科技推出天璣AI先鋒計劃

聯發科技（MediaTek）近日重磅推出了一項名為“天璣AI先鋒計劃”的創新舉措。這一計劃旨在匯聚全球開發者的智慧與力量，共同推動AI技術的發展和應用。通過整合聯發科技與業界生態伙伴的優質資源，該計劃為敢于創新、勇于探索的開發者

發表于 05-08 10:55 ?362次閱讀

risc-v多核芯片在AI方面的應用

得RISC-V多核芯片能夠更好地適應AI算法的不同需求，包括深度學習、神經網絡等，從而提高芯片的性能和效率，降低成本，使AI邊緣計算晶片更具競爭力。再者，RISC-V的多核設計可以進一步提高

發表于 04-28 09:20

新火種AI|百度AI賺翻了！全年營收1346億，碾壓OpenAI成盈利第一？

狂飆的AI風口，為什么百度賺到錢了？

發表于 03-02 09:10 ?805次閱讀

算力強勁的AI邊緣計算盒子# 邊緣計算

AI邊緣計算

成都華江信息
發布于 :2023年11月24日 16:31:06

儲能賽道狂飆突進，漢威科技守護儲能消防安全

近年來，儲能賽道狂飆突進，已經成為我國以及美國、日本、澳大利亞、歐洲諸國的新興產業?！丁笆奈濉眹蚁拦ぷ饕巹潯诽貏e提到，要積極防范新業態新材料新風險，其中包括新型儲能設施。儲能系統是新型

發表于 11-09 17:37 ?255次閱讀

昆侖芯入選2023年度中國AI芯片先鋒企業TOP 30

近日，2023全球AI芯片峰會、第二十三屆中國國際工業博覽會（簡稱“工博會”）先后在深圳和上海圓滿落幕。兩場盛會上,「2023年度中國AI芯片先鋒企業TOP 30」、“制”敬不凡先鋒中

發表于 09-27 10:04 ?833次閱讀

九天睿芯入選2023年度“中國AI芯片企業先鋒榜”

9月15日上午九天睿芯在2023全球AI芯片峰會上榮登「2023年度中國AI芯片先鋒企業TOP30」榜單。

發表于 09-20 10:16 ?903次閱讀

愛芯元智上榜“中國AI芯片企業”先鋒企業TOP 30

近日，2023全球AI芯片峰會（GACS 2023）在深圳成功舉辦。會上重磅揭曉了2023年度「中國AI芯片企業」榜單，愛芯元智上榜「先鋒企業TOP 30」。 2023全球AI芯片峰會

發表于 09-20 10:01 ?894次閱讀

時擎科技榮登2023年度中國AI芯片企業榜「先鋒企業TOP30」

了2023「中國AI芯片企業榜」榜單，時擎科技繼去年榮登2022「中國AI芯片企業50強」榜單后，再次躋身2023年度中國AI芯片企業榜「先鋒企業TOP30」。先

發表于 09-16 08:35 ?785次閱讀

看這里的高端裝備企業如何一路狂飆

要說2023年第一部最火的影視劇，非《狂飆》莫屬，它在互聯網上引發了近百億參與量的話題討論，也由此帶火了主要取景地——江門市。江門市一直以來也是珠三角地區和粵港澳大灣區的工業制造的優渥平臺，高端裝備

發表于 07-31 17:33 ?529次閱讀

【OpenAI】1小時初學者教學-製作你的AI app - #人工智慧 #ChatGPT #python -

AIOpenAI

充八萬
發布于 :2023年07月28日 03:31:46

【OpenAI】1小時初學者教學-製作你的AI app - #人工智慧 #ChatGPT #python -

AIOpenAI

充八萬
發布于 :2023年07月28日 03:30:55

【OpenAI】1小時初學者教學-製作你的AI app - #人工智慧 #ChatGPT #python -

AIOpenAI

充八萬
發布于 :2023年07月28日 03:29:13

搜索歷史

AI狂飆突進，存力需作先鋒

評論

知存科技助力AI應用落地：WTMDK2101-ZT1評估板實地評測與性能揭秘

存內計算WTM2101編譯工具鏈資料

聯發科技推出天璣AI先鋒計劃

risc-v多核芯片在AI方面的應用

新火種AI|百度AI賺翻了！全年營收1346億，碾壓OpenAI成盈利第一？

算力強勁的AI邊緣計算盒子# 邊緣計算

儲能賽道狂飆突進，漢威科技守護儲能消防安全

昆侖芯入選2023年度中國AI芯片先鋒企業TOP 30

九天睿芯入選2023年度“中國AI芯片企業先鋒榜”

愛芯元智上榜“中國AI芯片企業”先鋒企業TOP 30

時擎科技榮登2023年度中國AI芯片企業榜「先鋒企業TOP30」

看這里的高端裝備企業如何一路狂飆

【OpenAI】1小時初學者教學-製作你的AI app - #人工智慧 #ChatGPT #python -

【OpenAI】1小時初學者教學-製作你的AI app - #人工智慧 #ChatGPT #python -

【OpenAI】1小時初學者教學-製作你的AI app - #人工智慧 #ChatGPT #python -

搜索歷史

AI狂飆突進，存力需作先鋒

評論

AI狂飆突進，存力需作先鋒