<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

龍芯中科自研 GPGPU!大語言模型浪潮下,國產廠商如何把握機會?

Carol Li ? 來源:電子發燒友網 ? 作者:李彎彎 ? 2023-05-18 09:06 ? 次閱讀

電子發燒友網報道(文/李彎彎)日前,在龍芯中科 2022 年度暨 2023 年第一季度業績暨現金分紅說明會上,龍芯中科董事長胡偉武宣布,集成龍芯自研 GPGPU (通用圖形處理器)的第一款 SoC 芯片預計將于 2024 年一季度流片。

胡偉武表示,目前已經基本完成相關 IP 研發,正在開展全面驗證,在此基礎上,2024 年下半年將完成兼顧顯卡和算力加速功能的專用芯片流片。

大語言模型拉動GPGPU需求增長

GPGPU(通用圖形處理器),脫胎于 GPU(圖形處理器)。GPU最初是為解決 CPU 在圖形處理領域性能不足的問題而誕生的,而面對非圖像顯示領域并涉及大量并行運算的領域,比如 AI、加密解密、科學計算等,則更需要通用計算能力,GPGPU應運而生。

近段時間,隨著ChatGPT的出圈,全球掀起大語言模型的研究熱潮。而無論是大模型的訓練還是推理,這都離不開GPGPU芯片來提供算力支持。業界推測,在未來幾年內,大語言模型的訓練和部署將推動GPGPU需求增長。

在訓練端,英偉達可以說是這場大模型浪潮中的絕對受益者,目前全球大模型的訓練基本依賴英偉達的GPU。英偉達有兩款強大的GPU產品:A100和H100。

A100 是英偉達2020年推出的數據中心級云端加速芯片,擁有540億晶體管,采用臺積電7nm工藝制程,支持FP16、FP32和FP64浮點運算,為人工智能、數據分析和HPC數據中心等提供算力。A100 提供超快速的顯存帶寬,可處理超大型模型和數據集。

H100是英偉達2022年3月發布的最新一代數據中心GPU,集成800億晶體管,采用臺積電定制的4nm工藝。英偉達CEO黃仁勛此前表示,這款GPU具有超強的計算能力,20個H100 GPU便可承托相當于全球互聯網的流量。相比于A100,H100在FP16、FP32和FP64計算上快三倍,非常適用于當下流行且訓練難度高的大模型。

由于全球眾多科技企業加入大語言模型研究大軍,近段時間,英偉達的GPU供貨周期拉長,價格上漲,其A100 GPU市場單價兩個月前還在10萬元左右,如今已經上漲到15萬元。

目前大部分研究都認為,AI大模型預訓練是一個非常耗時、耗力、耗電的過程,這部分對GPU的貢獻最大。然而實際上,如果真正地去計算成本,對于企業來說,大模型的推理將會耗費巨大的成本,而其中很大部分則是在GPU的購買上。

wKgaomRlemiABWxOAAB1tH63zo4655.jpg
圖:沐曦研究科學家李兆石演講(電子發燒友拍攝)


在近日某人工智能論壇上,沐曦研究科學家李兆石介紹,以谷歌為例,谷歌目前主要的收入來源是搜索廣告,每次搜索平均能夠給谷歌帶來約1.6美分。

如果把類似ChatGPT插入到谷歌搜索里,在現在主流高性能的英偉達A100 GPU上,需要八張GPU才能做一次GPT3的推理,把電費和GPU的一次性購買成本算進去,每次推理的平均成本大約是0.36美分,如果谷歌直接在谷歌搜索里用類似ChatGPT規模的大模型,相當于很大一部分利潤都將耗費在大模型的推理成本上。

相當于在A100上做GPT3規模的預訓練,大概需要80萬美元。而把剛才0.36美分乘以谷歌每天的搜索次數,可以發現,直接在谷歌搜索里用這個GPT推理,這個推理成本每天是1億美元,推理成本遠遠高于預訓練成本。

wKgaomRlenWAKtamAABcLQtXWaU857.jpg

將這個推理成本再進一步拆解,會發現,以英偉達A100 GPU的市場價格12500美元計算(這是之前的價格,現在國內價格基本上已經漲到15到20萬人民幣),一般GPU的使用年限是五年,把這個購買成本線性平攤到五年時間,這個0.36美分的每次推理成本里面,65%是購買GPU的成本。也就是說GPU的一次性購買成本,占大模型訓練和推理的絕大部分。

國內AI算力芯片廠商的產品和技術進展

可以看到,雖然目前大語言模型的訓練基本依賴英偉達的GPU,然而隨著大模型逐漸走向落地應用,在推理側,國內外AI算力芯片廠商將迎來較大的市場機會。

在國內,近些年已經有不少廠商在高性能計算AI算力芯片領域取得進展,包括寒武紀、海光信息、壁仞科技、摩爾線程、天數智芯、燧原科技、沐曦集成、芯動科技、登臨科技等。

wKgZomRlen2Ae0syAAC8oIOxjWU774.jpg
電子發燒友制表


如今CPU廠商龍芯也加入到了GPGPU大軍中,不過可以看到龍芯的GPGPU主要還是集成在自家的SOC中。事實上,龍芯早在2017年就開始研究GPU,2021年7月,該公司發布的龍芯3號系列處理器的配套橋片“龍芯7A2000”,內部就首次集成了龍芯自研的GPU。

如今龍芯又透露了其在GPGPU方面的最新進展。據胡偉武介紹,2024 年龍芯將流片首款大小核協同芯片。龍芯 3A6000 的下一代將是 3B6000,四大四小八個核,內置自研 GPGPU。大核爭取通過結構優化再提高性能 20% 以上。

寒武紀是一家專注于人工智能芯片研發和技術創新的企業,能夠為視覺、語音、自然語言處理、傳統機器學習等人工智能技術提供基礎計算平臺。2021年7月,寒武紀發布了其第三代云端 AI 芯片思元 370,以及基于思元 370 的兩款加速卡 MLU370-S4 和 MLU370-X4。

同時,寒武紀全新升級了 Cambricon Neuware 軟件棧,新增推理加速引擎 MagicMind,實現訓推一體,顯著提升了開發部署的效率。而且,有 7nm 先進工藝和全新 MLUarch03 架構加持,思元 370 芯片算力最高可達 256TOPS (INT8),是上一代產品思元 270 算力的 2 倍。

海光信息的產品包括通用處理器(CPU)和協處理器(DCU),海光DCU屬于GPGPU的一種。海光DCU 8000系列,支持INT4、INT8、FP16、FP32、FP64運算精度,支持4個HBM2內存通道,最高內存帶寬為1TB/s、最大內存容量為32GB。

海光DCU協處理器全面兼容ROCm GPU計算生態,由于ROCm和CUDA在生態、編程環境等方面具有高度的相似性,CUDA用戶可以以較低代價快速遷移至ROCm平臺。

壁仞科技去年8月發布了首款通用GPU BR100,集成770億晶體管,其INT8算力達2048 TOPS,BF16算力達1024 TFLOPS,TF32+算力達512 TFLOPS,FP32算力達256 TFLOPS。同期,壁仞科技還發布了自主原創架構——壁立仞、創造全球性能紀錄的OAM服務器——海玄,以及OAM模組——壁礪100,PCIe板卡產品——壁礪104,以及自主研發的BIRENSUPA軟件平臺。

摩爾線程已經發布兩款自主研發的GPU芯片產品,去年3月發布GPU產品“蘇堤”,11月又發布了第二款GPU芯片“春曉”?!按簳浴眱戎肕USA架構通用計算核心以及張量計算核心,可支持FP32、FP16和INT8三種計算精度;相較于其首款自研的GPU“蘇堤”,“春曉”內置的四大計算引擎都進行了全面升級,性能顯著提升,AI計算加速平均提升4倍。

天數智芯于2018年正式啟動通用GPU芯片設計,在2021年發布了其通用GPU“天垓100”芯片及天垓100加速卡,2021年10月宣布天垓100正式進入量產環節。2022年9月,天數智芯又發布了首款7nm制程的云端推理通用GPU產品“智鎧100”。

智鎧 100 芯片支持 FP32、FP16、INT8 等多精度混合計算,實現了指令集增強、算力密度提升、計算存儲再平衡,支持多種視頻規格解碼。

燧原科技已經迭代了兩代訓練和推理產品,第三代也已經在研發中。燧原科技已經在科研領域和智慧城市的應用中落地了訓練和推理的超千卡算力集群。

該公司創始人兼COO張亞林此前在接受電子發燒友采訪的時候表示,類似ChatGPT這樣的AIGC生成式模型,對于燧原科技而言是個機遇,公司可以把已經積累的系統集群的經驗推廣到更多的客戶賽道上,幫助客戶使能更多大模型的生成。

wKgaomRleoiARZXRAABXP1zpGes137.jpg
沐曦集成產品路線圖


沐曦集成目前有三條產品線規劃,G系列、C系列和N系列,G系列主要是用于圖形處理領域,C系列主要用于高性能云端的訓練和推理,N系列主要是云端的推理芯片?,F在N系列的云端推理芯片已經量產出貨,C系列正在做調試,如果沒有問題的話,也很快就會量產。

芯動科技已經發布兩款GPU芯片——風華1號和風華2號。風華1號于2021年發布,于去年9月正式量產。風華2號于2022年8月發布,是一款集超低功耗、強渲染、4K高清三屏顯示、及智能AI計算于一體的桌面和筆記本GPU。

風華2號在AI計算能力方面,支持科學/邊緣計算,AI性能超過12.5TOPS,支持人臉識別、目標識別、語義分割、圖像超分辨率等多種場景實時應用。

登臨科技是一家專注于高性能通用計算平臺的芯片研發與技術創新的公司,其自主研發的GPU+架構正式采用了軟件定義的片內異構體系,目前首款基于GPU+的系列產品—Goldwasser已在云至邊緣的各個應用場景實現規?;涞?。

登臨科技聯合創始人王平此前在接受電子發燒友采訪的時候表示,登臨科技希望通過異構,從由點及面在一些足夠大的市場領域,把產品做到比英偉達同系列產品更具性價比優勢,甚至超過英偉達。

帶著這樣的出發點,在大型語言模型方面,登臨科技會更關心如何更好的提升產品的能效比。簡單來說,在同樣功耗下,登臨科技可以提供英偉達1.5到2倍的算力,在算力一致的情況下,做到單位功耗更低。這樣從計算的整體性能上,實現英偉達同類產品的能效比3倍的優勢。如此一來,可以極大地節省電費及運維成本。

小結

很顯然,隨著ChatGPT的出圈,國內外眾多科技企業掀起大語言模型的研究熱潮,而無論是大模型的訓練還是部署,都離不開GPGPU芯片提供算力支持。目前而言,大模型的訓練基本依賴英偉達的GPU,然而相比較而言,隨著大模型逐步落地應用,在推理部分將同樣需要用到大量GPGPU,而這也是除英偉達之外,國內外眾多GPGPU廠商的機會。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 龍芯
    +關注

    關注

    2

    文章

    304

    瀏覽量

    30876
  • GPGPU
    +關注

    關注

    0

    文章

    23

    瀏覽量

    4811
收藏 人收藏

    評論

    相關推薦

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

    讀者更好地把握語言模型的應用場景和潛在價值。盡管涉及復雜的技術內容,作者盡力以通俗易懂的語言解釋概念,使得非專業背景的讀者也能夠跟上節奏。圖表和示例的運用進一步增強了書籍的可讀性。本
    發表于 05-07 10:30

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    不同語境的不同語義。而動態詞向量語言模型中對詞的表示隨著上下文語境的不同而動態變化,依賴當前所在的句子或段落等的語境。以ELMo為例,將詞序列輸入經過預訓練的ELMo模型,該
    發表于 05-05 12:17

    與眾不同的主板?龍芯國產主板GM9-3003

    國產計算機,找集特智能龍芯處理器是中國人自主研發的計算機處理器,2022年8月31日,龍芯中科在互動平臺表示,3A6000目前研發進展順利,已完成前端設計及仿真驗證,仿真結果表明其單
    的頭像 發表于 04-19 08:13 ?113次閱讀
    與眾不同的主板?<b class='flag-5'>龍芯</b><b class='flag-5'>國產</b>主板GM9-3003

    龍芯中科中科信息簽訂合作框架協議

    1月24日,龍芯中科技術股份有限公司與中科院成都信息技術股份有限公司(以下簡稱“中科信息”)合作框架簽約儀式在成都興隆湖畔科學城園區舉行。
    的頭像 發表于 01-26 11:44 ?557次閱讀

    國產CPU龍芯3A6000發布,央視點贊支持!

    龍芯中科于11月28日在2023龍芯產品發布暨用戶大會上正式發布多款新品,其中包括國產芯片公司的新一代通用CPU處理器龍芯3A6000和打印
    的頭像 發表于 11-29 18:16 ?872次閱讀

    龍芯中科宣布3A6000國產桌面處理器本月底發布

    近日,在龍芯中科 2023 年第三季度業績說明會上,龍芯中科宣布 3A6000 國產桌面處理器初步定于 11 月 28 日發布。
    的頭像 發表于 11-10 09:53 ?908次閱讀
    <b class='flag-5'>龍芯</b><b class='flag-5'>中科</b>宣布3A6000<b class='flag-5'>國產</b>桌面處理器本月底發布

    龍芯中科攜手百代存儲打造基于龍架構的新一代國產統一存儲解決方案

    為解決國產化存儲的"卡脖子"問題,滿足數據存儲自主可控的核心需求,龍芯中科技術股份有限公司聯合百代(上海)數據技術有限公司(以下簡稱“百代存儲”)打造基于龍架構的新一代國產統一存儲解決
    的頭像 發表于 10-09 14:49 ?477次閱讀

    迅為龍芯3A5000_7A2000運行國產Loongnix、銀河麒麟、統信UOS以及實時系統翼輝SylixoS系統

    顯示器;另外內置一個網絡PHY,片內集成了GPU,搭配32位DDR4顯存接口最大支持16GB顯存容量。 性能強: 采用全國產龍芯3A5000處理器,基于
    發表于 09-26 10:33

    龍芯發布國產化全固態桌面存儲一體機

    為解決網絡存儲的信息安全威脅,近日,龍芯國產化全固態桌面存儲一體機正式發布。該產品由龍芯中科(武漢)技術有限公司牽頭,聯合龍眾創芯、嘉合勁威、熊貓電子、可道云等多家
    的頭像 發表于 09-19 10:54 ?699次閱讀

    龍芯中科攜手英方軟件打造國產容災備份一體機解決案例

    為解決國產服務器的供給問題,彌補容災系統建設存在的諸多缺陷,近日,龍芯中科技術股份有限公司聯合上海英方軟件股份有限公司打造國產容災備份一體機解決方案,可廣泛應用于容災、虛擬化保護、實時
    的頭像 發表于 08-29 09:56 ?699次閱讀
    <b class='flag-5'>龍芯</b><b class='flag-5'>中科</b>攜手英方軟件打造<b class='flag-5'>國產</b>容災備份一體機解決案例

    中科昊芯Start_DSC28034PNT開發板開箱體驗

    、flash以及電機驅動芯片; 2.Jtag燒錄器 燒錄器驅動目前沒有找到,官方的包里面沒有安裝成功,正在摸索中; 3.燒錄軟件 4.中科昊芯編程IDE軟件 初步用了一
    發表于 07-13 10:47

    龍芯、鯤鵬、海光等國產CPU,抓住良機,適時發展

    當下,大模型AI是最熱門的IT話題。AI爆發不僅讓英偉達成為市值最高的公司,也為國產芯片產業帶來機會。面對AI算力需求急速高企,在關注GPU性能和應用的同時,CPU市場也將獲得提振效果,龍芯
    的頭像 發表于 07-06 17:11 ?639次閱讀

    國產CPU龍頭龍芯中科侵權MIPS案勝訴!力證自研指令集實力

    電子發燒友網報道(文/劉靜)6月26日,國產CPU龍頭龍芯中科發布關于仲裁事項進展的公告。 ? 公告指出,2021年2月,Prestige Century Investments Limited
    發表于 06-26 18:31 ?1270次閱讀
    <b class='flag-5'>國產</b>CPU龍頭<b class='flag-5'>龍芯</b><b class='flag-5'>中科</b>侵權MIPS案勝訴!力證自研指令集實力

    迅為iTOP-3A5000開發板外加機箱就是一臺電腦主機國產龍芯

    性能強 采用全國產龍芯3A5000處理器,基于龍芯自主指令系統 (LoongArche)的LA464微結構,并進一步提升頻率,降低功耗,優化性能。 橋片 橋片采用龍芯 7A2000,支
    發表于 05-23 10:36

    龍芯中科:搭載GPGPU的SoC明年Q1流片

    行業芯事時事熱點行業資訊
    電子發燒友網官方
    發布于 :2023年05月17日 11:23:58
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>