電子發燒友網報道(文/李彎彎)大模型,又稱為預訓練模型、基礎模型等,大模型通常是在大規模無標注數據上進行訓練,學習出一種特征和規則。近期火爆的ChatGPT,便是基于GPT大模型的一個自然語言處理工具。
從參數規模上看,AI大模型先后經歷了預訓練模型、大規模預訓練模型、超大規模預訓練模型三個階段,參數量實現了從億級到百萬億級的突破。從模態支持上看,AI大模型從支持圖片、圖像、文本、語音單一模態下的單一任務,逐漸發展為支持多種模態下的多種任務。
AI大模型的發展歷程
AI大模型的發展,還要從2017年Vaswani等提出Transformer架構說起,Transformer架構的提出奠定了當前大模型領域主流的算法架構基礎。
2018年,谷歌提出了大規模預訓練語言模型BERT,該模型是基于Transformer的雙向深層預訓練模型,其參數首次超過3億規模;同年,OpenAI提出了生成式預訓練Transformer模型GPT,大大地推動了自然語言處理領域的發展。此后,基于BERT的改進模型、ELNet、RoBERTa、T5等大量新式預訓練語言模型不斷涌現,預訓練技術在自然語言處理領域蓬勃發展。
2019年,OpenAI繼續推出15億參數的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機器翻譯等。緊接著,英偉達推出了83億參數的Megatron-LM,谷歌推出了110億參數的T5,微軟推出了170億參數的圖靈Turing-NLG。
2020年,OpenAI推出了超大規模語言訓練模型GPT-3,參數達到1750億,在兩年左右的時間實現了模型規模從億級到上千億級的突破,并能夠實現作詩、聊天、生成代碼等功能。此后,微軟和英偉達在2020年10月聯手發布了5300億參數的MegatronTuring自然語言生成模型(MT-NLG)。
2021年1月,谷歌推出的Switch Transformer模型以高達1.6萬億的參數量成為史上首個萬億級語言模型;到2022年一大批大模型涌現,比如Stability AI發布的文字到圖像的創新模型Diffusion,以及OpenAI推出的ChatGPT。
在國內,大模型研究發展迅速。2021年,商湯發布了書生(INTERN)大模型,擁有100億的參數量;2021年4月,華為云聯合循環智能發布盤古NLP超大規模預訓練語言模型,參數規模達1000億,聯合北京大學發布盤古α超大規模預訓練模型,參數規模達2000億。
同年4月,阿里達摩院發布270億參數的中文預訓練語言模型PLUG,聯合清華大學發布參數規模達到 1000億的中文多模態預訓練模型M6;7月,百度推出ERNIE 3.0知識增強大模型,參數規模達到百億;10月,浪潮信息發布約2500億的超大規模預訓練模型“源 1.0”;12月,百度推出ERNIE 3.0 Titan模型,參數規模達2600億。
2022 年,基于清華大學、阿里達摩院等研究成果以及超算基礎實現的“腦級人工智能模型”八卦爐(BAGUALU)完成建立,其模型參數規模突破了174萬億個??梢钥吹?,目前大模型參數規模最高已經達到百萬億級別。
大模型研究的重要意義
當前人工智能正處在可以用到好用的落地階段,但目前仍處于商業落地早期,主要面臨著場景需求碎片化、人力研發和應用計算成本高、長尾場景數據較少導致模型訓練精度不夠、模型算法從實驗室場景到真實場景效果差距大等行業痛點。
大模型具備大規模和預訓練的特點,一方面有良好的通用性、泛化性,能夠解決傳統AI應用中門檻高、部署難的問題,另一方面可以作為技術底座,支撐智能化產品及應用落地。
過去很多年,雖然各大科技公司不斷推出較大規模的模型,然而直到去年生成式AI逐漸走向商業化,以及去年底今年初OpenAI推出的ChatGPT爆火,AI大模型才真正迎來發展的轉折點。美國國家工程院外籍院士、北京智源人工智能研究院理事張宏江此前表示,ChatGPT和AIGC,技術爆火背后,代表著人工智能(AI)大模型進入一個新的技術范式,也是第三波AI浪潮經過十幾年發展之后一個非常重要的拐點。
張宏江認為,它其實代表著從以前各自研發專用小模型到研發超大規模通用智能模型的一個范式轉變。這個轉變的重要意義在于:通過這種比較先進的算法架構,盡可能多的數據,匯集大量算力,集約化的訓練達模式,從而供大量用戶使用。
大模型的發展很可能會改變信息產業的格局,改變以前作坊式AI開發模式,把AI應用帶入基于互聯網、云計算的大規模智能云階段。
小結
雖然過去十幾年人工智能技術發展迅速,然而在近幾年卻遇到了一些技術瓶頸和商業化難題。而大模型的發展和普及,尤其是通過大模型+微調的新技術開發范式,人工智能將能夠更好的在各種場景中實現應用,當然大模型的訓練和推理對算力等也提出了很高的要求,因此大模型的研究最終能夠如何推進人工智能產業的發展,還需要產業鏈各環節的共同努力。
從參數規模上看,AI大模型先后經歷了預訓練模型、大規模預訓練模型、超大規模預訓練模型三個階段,參數量實現了從億級到百萬億級的突破。從模態支持上看,AI大模型從支持圖片、圖像、文本、語音單一模態下的單一任務,逐漸發展為支持多種模態下的多種任務。
AI大模型的發展歷程
AI大模型的發展,還要從2017年Vaswani等提出Transformer架構說起,Transformer架構的提出奠定了當前大模型領域主流的算法架構基礎。
2018年,谷歌提出了大規模預訓練語言模型BERT,該模型是基于Transformer的雙向深層預訓練模型,其參數首次超過3億規模;同年,OpenAI提出了生成式預訓練Transformer模型GPT,大大地推動了自然語言處理領域的發展。此后,基于BERT的改進模型、ELNet、RoBERTa、T5等大量新式預訓練語言模型不斷涌現,預訓練技術在自然語言處理領域蓬勃發展。
2019年,OpenAI繼續推出15億參數的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機器翻譯等。緊接著,英偉達推出了83億參數的Megatron-LM,谷歌推出了110億參數的T5,微軟推出了170億參數的圖靈Turing-NLG。
2020年,OpenAI推出了超大規模語言訓練模型GPT-3,參數達到1750億,在兩年左右的時間實現了模型規模從億級到上千億級的突破,并能夠實現作詩、聊天、生成代碼等功能。此后,微軟和英偉達在2020年10月聯手發布了5300億參數的MegatronTuring自然語言生成模型(MT-NLG)。
2021年1月,谷歌推出的Switch Transformer模型以高達1.6萬億的參數量成為史上首個萬億級語言模型;到2022年一大批大模型涌現,比如Stability AI發布的文字到圖像的創新模型Diffusion,以及OpenAI推出的ChatGPT。
在國內,大模型研究發展迅速。2021年,商湯發布了書生(INTERN)大模型,擁有100億的參數量;2021年4月,華為云聯合循環智能發布盤古NLP超大規模預訓練語言模型,參數規模達1000億,聯合北京大學發布盤古α超大規模預訓練模型,參數規模達2000億。
同年4月,阿里達摩院發布270億參數的中文預訓練語言模型PLUG,聯合清華大學發布參數規模達到 1000億的中文多模態預訓練模型M6;7月,百度推出ERNIE 3.0知識增強大模型,參數規模達到百億;10月,浪潮信息發布約2500億的超大規模預訓練模型“源 1.0”;12月,百度推出ERNIE 3.0 Titan模型,參數規模達2600億。
2022 年,基于清華大學、阿里達摩院等研究成果以及超算基礎實現的“腦級人工智能模型”八卦爐(BAGUALU)完成建立,其模型參數規模突破了174萬億個??梢钥吹?,目前大模型參數規模最高已經達到百萬億級別。
大模型研究的重要意義
當前人工智能正處在可以用到好用的落地階段,但目前仍處于商業落地早期,主要面臨著場景需求碎片化、人力研發和應用計算成本高、長尾場景數據較少導致模型訓練精度不夠、模型算法從實驗室場景到真實場景效果差距大等行業痛點。
大模型具備大規模和預訓練的特點,一方面有良好的通用性、泛化性,能夠解決傳統AI應用中門檻高、部署難的問題,另一方面可以作為技術底座,支撐智能化產品及應用落地。
過去很多年,雖然各大科技公司不斷推出較大規模的模型,然而直到去年生成式AI逐漸走向商業化,以及去年底今年初OpenAI推出的ChatGPT爆火,AI大模型才真正迎來發展的轉折點。美國國家工程院外籍院士、北京智源人工智能研究院理事張宏江此前表示,ChatGPT和AIGC,技術爆火背后,代表著人工智能(AI)大模型進入一個新的技術范式,也是第三波AI浪潮經過十幾年發展之后一個非常重要的拐點。
張宏江認為,它其實代表著從以前各自研發專用小模型到研發超大規模通用智能模型的一個范式轉變。這個轉變的重要意義在于:通過這種比較先進的算法架構,盡可能多的數據,匯集大量算力,集約化的訓練達模式,從而供大量用戶使用。
大模型的發展很可能會改變信息產業的格局,改變以前作坊式AI開發模式,把AI應用帶入基于互聯網、云計算的大規模智能云階段。
小結
雖然過去十幾年人工智能技術發展迅速,然而在近幾年卻遇到了一些技術瓶頸和商業化難題。而大模型的發展和普及,尤其是通過大模型+微調的新技術開發范式,人工智能將能夠更好的在各種場景中實現應用,當然大模型的訓練和推理對算力等也提出了很高的要求,因此大模型的研究最終能夠如何推進人工智能產業的發展,還需要產業鏈各環節的共同努力。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
AI
+關注
關注
87文章
26668瀏覽量
264330 -
ChatGPT
+關注
關注
27文章
1450瀏覽量
5079
發布評論請先 登錄
相關推薦
進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片
計算工作負載、釋放百億億次計算能力和萬億參數人工智能模型的全部潛力提供關鍵基礎。
NVLink釋放數萬億參數
發表于 05-13 17:16
軟銀追加1500億日元,加速AI大模型開發進程
據了解,軟銀目前已經在生成式AI算力基礎設施方面投資了200億日元(約合9.36億元人民幣),預計將進一步加大投入,力求在本年度內打造出參數達到390B的最新模型,同時在來年制定萬億
纖納光電與浙能電力舉行戰略簽約儀式 鈣鈦礦商業化進程加速!
4月11日,杭州纖納光電科技股份有限公司(“纖納光電”)與浙能鎮海發電公司下屬寧波發電工程有限公司在浙江浙能電力股份有限公司(“浙能電力”)見證下舉行戰略簽約儀式,共同擘畫共同建設加速賦能鈣鈦礦商業化進程,以創新實踐履行社會責任
數勢科技攜手書亦燒仙草,引領大模型商業化落地
為書亦燒仙草帶來了全新的數字化運營模式,成為新技術應用的領先者,也為數勢科技在大模型商業化應用領域樹立了新的標桿。 2007年成立至今,從一家門店到全國7000+店,從一個人創業,到一群人創業,書亦燒仙草已經成為一家在全國擁有8個分公司、
微軟攜手法國AI初創企業Mistral推動AI模型商業化
微軟近日與法國人工智能初創企業Mistral達成合作協議,旨在推動AI模型的商業化應用。據悉,微軟將提供全方位支持,幫助這家成立僅10個月的公司將其先進的AI
小i機器人華藏生態橫空出世,拉開大模型商業化變現序幕
? “人工智能中概第一股”小i機器人10月26日對外發布了華藏通用大模型生態體系,正式開啟了人工智能大模型商業化變現之旅。 小i機器人華藏生態體系由一個大基礎能力基座、一個產品支撐和3項服務保障組成
發表于 10-27 09:00
?211次閱讀
【KV260視覺入門套件試用體驗】Vitis AI 構建開發環境,并使用inspector檢查模型
FFT運算(Vivado)
四、硬件加速之—使用PL加速矩陣乘法運算(Vitis HLS)
五、Vitis AI 構建開發環境,并使用inspector檢查模型
六、Vitis
發表于 10-14 15:34
開放加速規范AI服務器的設計方法
當前語言大模型的參數量已達千億以上,訓練數據集的規模也達到了TB級別。業界典型的自然語言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。如果用“算力當量”(PetaFlops/
OpenVINO工具套件是否可以商業化使用?
參閱 英特爾? OpenVINO?分銷許可第 2.1 節(2021 年 5 月版本)。
無法了解英特爾? 發行版 OpenVINO? 工具套件是否可以商業化使用。
發表于 08-15 08:19
工信部支持!L3級自動駕駛功能商業化應用落地加速
L3級,及更高級別的自動駕駛功能商業化應用。 ? L3 級自動駕駛發展進程 ? 自動駕駛,它是指不需要駕駛員執行物理駕駛操作,車輛能夠對行駛任務進行指導與決策,代替駕駛員操控使車輛完成安全行駛的功能。自動駕駛汽車具備自
英特爾公布1萬億參數AI模型,比ChatGPT大570%
擁有這么大的規模,那么驅動 Aurora genAI 模型背后的算力肯定也不容小覷。英特爾透露,他們使用的是名為 Aurora(歐若拉)的超級計算機,這是英特爾與阿貢國家實驗室和 HPE 合作開發的百萬兆級超級計算機。
評論