電子發燒友網報道(文/李彎彎)近日,百度飛槳總架構師于佃海公開談到,AI預訓練大模型是深度學習崛起以來,最重要的一次技術變革。
大模型不只是模型參數規模大,同時也對應著學習機制和AI開發應用范式的改變。自監督學習模式突破了數據標注的困境,可以從海量數據中學習到豐富的通用知識。
基于大模型,只需要通過模型的微調或提示等方式,就可以在廣泛的下游任務中取得優異的效果,極大的降低了AI開發和應用的成本。
大語言模型的涌現能力
在自然語言處理領域,過去這些年模型的規模越來越多。之前模型參數大概在千萬級別、億級別,現在已經跳到了千億級別?;旧嫌窝芯窟@些大模型的使一些計算資源比較豐富的企業和機構,有了這些預訓練模型之后,下游可以把它放在一些自然語言處理的任務中。
在全球人工智能開發者先鋒大會上,復旦大學計算機學院教授邱錫鵬在《ChatGPT能力分析與應用》主題演講中表示,大型語言模型是ChatGPT的基座。
邱錫鵬教授談到,當模型從小規模發展到大規模的時候,當發展到一定階段,它會涌現出一些之前在小模型上觀測不到的能力,也就是大家說的能力涌現。比如給幾個樣例,讓模型學習這個任務,一個百億級別參數規模的模型和一個千億級別參數的模型,這兩個模型的能力差異會相當大,邱錫鵬教授認為,從百億到千億參數規模,模型發生了能力的突變。
考察大模型的幾個能力:數學建模能力、多任務理解的能力、上下文的學習理解能力,在百億規模之后,就會發生突變。它的能力不再是線性增長。
模型使用的方式也發生了變換,因為有了大模型之后,調參非常難,它的使用范式也會發生變化。比如,早期使用預訓練,調它的參數;現在語言模型很大的時候,要做什么任務,就是提示,告訴它要做什么,變成了另外一種使用范式。
舉個例子,我們把要完成的任務,用一句話描述出來,輸入給語言模型,語言模型就按產生下一句話的方式,生成你要的答案。這就是大型語言模型的使用方式。邱錫鵬教授認為,在Transformer這種架構下,大型語言模型標志性的分水嶺是百億規模參數。
以ChatGPT為例,在大模型下,ChatGPT涌現出的三種能力:情景學習、思維鏈和指令學習。這三個能力對ChatGPT最終的成功起到了重要作用。
情景學習:大模型調參不是很方便,如果要它在一個上下文語境中完成學習,這就叫情景學習。也就是給它一個任務,再給它幾個例子,讓它學習。情景學習賦予了大模型非常強的交互能力,情景學習也可以大幅降低下游的開發成本。
思維鏈:思維鏈的關鍵是打破了Scaling Law,一般而言,模型規模的放大通常會帶來能力的提升。而思維鏈的出現,使得在一定規模之后,可以通過思維鏈繼續放大模型的能力,而不需要進一步擴大參數規模。
指令學習:大模型達到一定規模之后,只需要給它少數的指令,它就學會了,對于沒見過的指令,它也會。這些就是大模型的涌現能力,它的泛化能力會變得非常強。
文圖生成主要技術路線
在ChatGPT出現之前,大模型最火的應用就是AI作畫,也就是文圖生成。事實上,文圖生成技術從2015年到現在,一直在不斷演進。據百度深圳自然語言處理部技術總監何徑舟在上述大會上介紹,這之間,文圖生成技術大概經歷了三個技術流派。
第一個是以對抗生成網絡GAN-based為主的早期技術;第二個是序列生成 VQ-token-based這種方式 ;第三個是從去年開始大熱的Diffusion-based擴散網絡這種方案?,F在常見的、在很多產品中使用的,都是這三個技術流派的延續或結合。
基于GAN的文本-圖像生成模型,是四五年前最火的文圖生成技術。它的優點是,整個模型的生成過程很快,在當時來看,生成的圖像質量相當不錯;然而它致命的缺點是,網絡特別難訓練,稍不小心就會訓練壞,或者難以得到理想的效果。因此在之后的工作中,大家就不太實用了。
基于圖像量化的序列建模。它是把圖像基于離散化的方式,壓縮成離散視覺token的序列,這樣可以跟文本用類似的方式基于Transformer自回歸生成,建模文本序列和圖像序列間的關系。通過這樣的方式,做文圖轉換,也可以做圖像文本的生成。何徑舟表示,文心大模型ERNIE-ViLG第一個版本就是基于VQ-token-based這種方式做的,在當時ERNIE-ViLG能夠完成雙向的生成和建模。
基于擴散模型的文本-圖像生成模型,是現在文圖生成技術的主流。它是把一個圖像通過加高斯噪聲的方式,一直到純隨機序列高斯噪音的分布。再通過UNet,不斷反復調用它,把這個圖像還原回來。這時候可以把文本的encoder加進去,指導圖像還原過程。這樣就實現了從文本到圖像的生成過程。這是現在絕大多數最新產品和技術都采用的方案,效果非常好。
小結
過去這些年,國內外在大模型技術的研究方面不斷取得突破,最近ChatGPT的出現及其體現出的驚人能力,更是讓人們體會到了大模型對于人工智能發展的重要意義。從種種跡象來看,疊加情景學習、指令微調、人類反饋、強化學習等機制,可以使大模型實現超出想象的能力涌現,讓人們期待的通用人工智能的實現加速。
大模型不只是模型參數規模大,同時也對應著學習機制和AI開發應用范式的改變。自監督學習模式突破了數據標注的困境,可以從海量數據中學習到豐富的通用知識。
基于大模型,只需要通過模型的微調或提示等方式,就可以在廣泛的下游任務中取得優異的效果,極大的降低了AI開發和應用的成本。
大語言模型的涌現能力
在自然語言處理領域,過去這些年模型的規模越來越多。之前模型參數大概在千萬級別、億級別,現在已經跳到了千億級別?;旧嫌窝芯窟@些大模型的使一些計算資源比較豐富的企業和機構,有了這些預訓練模型之后,下游可以把它放在一些自然語言處理的任務中。
在全球人工智能開發者先鋒大會上,復旦大學計算機學院教授邱錫鵬在《ChatGPT能力分析與應用》主題演講中表示,大型語言模型是ChatGPT的基座。
邱錫鵬教授談到,當模型從小規模發展到大規模的時候,當發展到一定階段,它會涌現出一些之前在小模型上觀測不到的能力,也就是大家說的能力涌現。比如給幾個樣例,讓模型學習這個任務,一個百億級別參數規模的模型和一個千億級別參數的模型,這兩個模型的能力差異會相當大,邱錫鵬教授認為,從百億到千億參數規模,模型發生了能力的突變。
考察大模型的幾個能力:數學建模能力、多任務理解的能力、上下文的學習理解能力,在百億規模之后,就會發生突變。它的能力不再是線性增長。
模型使用的方式也發生了變換,因為有了大模型之后,調參非常難,它的使用范式也會發生變化。比如,早期使用預訓練,調它的參數;現在語言模型很大的時候,要做什么任務,就是提示,告訴它要做什么,變成了另外一種使用范式。
舉個例子,我們把要完成的任務,用一句話描述出來,輸入給語言模型,語言模型就按產生下一句話的方式,生成你要的答案。這就是大型語言模型的使用方式。邱錫鵬教授認為,在Transformer這種架構下,大型語言模型標志性的分水嶺是百億規模參數。
以ChatGPT為例,在大模型下,ChatGPT涌現出的三種能力:情景學習、思維鏈和指令學習。這三個能力對ChatGPT最終的成功起到了重要作用。
情景學習:大模型調參不是很方便,如果要它在一個上下文語境中完成學習,這就叫情景學習。也就是給它一個任務,再給它幾個例子,讓它學習。情景學習賦予了大模型非常強的交互能力,情景學習也可以大幅降低下游的開發成本。
思維鏈:思維鏈的關鍵是打破了Scaling Law,一般而言,模型規模的放大通常會帶來能力的提升。而思維鏈的出現,使得在一定規模之后,可以通過思維鏈繼續放大模型的能力,而不需要進一步擴大參數規模。
指令學習:大模型達到一定規模之后,只需要給它少數的指令,它就學會了,對于沒見過的指令,它也會。這些就是大模型的涌現能力,它的泛化能力會變得非常強。
文圖生成主要技術路線
在ChatGPT出現之前,大模型最火的應用就是AI作畫,也就是文圖生成。事實上,文圖生成技術從2015年到現在,一直在不斷演進。據百度深圳自然語言處理部技術總監何徑舟在上述大會上介紹,這之間,文圖生成技術大概經歷了三個技術流派。
第一個是以對抗生成網絡GAN-based為主的早期技術;第二個是序列生成 VQ-token-based這種方式 ;第三個是從去年開始大熱的Diffusion-based擴散網絡這種方案?,F在常見的、在很多產品中使用的,都是這三個技術流派的延續或結合。
基于GAN的文本-圖像生成模型,是四五年前最火的文圖生成技術。它的優點是,整個模型的生成過程很快,在當時來看,生成的圖像質量相當不錯;然而它致命的缺點是,網絡特別難訓練,稍不小心就會訓練壞,或者難以得到理想的效果。因此在之后的工作中,大家就不太實用了。
基于圖像量化的序列建模。它是把圖像基于離散化的方式,壓縮成離散視覺token的序列,這樣可以跟文本用類似的方式基于Transformer自回歸生成,建模文本序列和圖像序列間的關系。通過這樣的方式,做文圖轉換,也可以做圖像文本的生成。何徑舟表示,文心大模型ERNIE-ViLG第一個版本就是基于VQ-token-based這種方式做的,在當時ERNIE-ViLG能夠完成雙向的生成和建模。
基于擴散模型的文本-圖像生成模型,是現在文圖生成技術的主流。它是把一個圖像通過加高斯噪聲的方式,一直到純隨機序列高斯噪音的分布。再通過UNet,不斷反復調用它,把這個圖像還原回來。這時候可以把文本的encoder加進去,指導圖像還原過程。這樣就實現了從文本到圖像的生成過程。這是現在絕大多數最新產品和技術都采用的方案,效果非常好。
小結
過去這些年,國內外在大模型技術的研究方面不斷取得突破,最近ChatGPT的出現及其體現出的驚人能力,更是讓人們體會到了大模型對于人工智能發展的重要意義。從種種跡象來看,疊加情景學習、指令微調、人類反饋、強化學習等機制,可以使大模型實現超出想象的能力涌現,讓人們期待的通用人工智能的實現加速。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
AI
+關注
關注
87文章
27184瀏覽量
264958 -
大模型
+關注
關注
2文章
1823瀏覽量
1419
發布評論請先 登錄
相關推薦
大模型應用之路:從提示詞到通用人工智能(AGI)
鋪平道路。 基于AI大模型的推理功能,結合了RAG(檢索增強生成)、智能體(Agent)、知識庫、向量數據庫、知識圖譜等先進技術,我們向實現真正的AGI(
IOTE物聯網展與AGIC通用人工智能展將在深攜手舉辦
之間的互聯互通,實現數據的實時收集與傳輸,創造出更多推動社會進步和改善生活的應用。 人工智能是新一輪科技革命和產業變革的重要驅動力量。特別是ChatGPT推出以來,以大模型、生成式AI
NanoEdge AI的技術原理、應用場景及優勢
是指將數據處理任務從云端遷移到離數據源更近的設備上,以實現更快的響應時間和更低的延遲。神經網絡壓縮技術則通過減少模型參數和計算量來降低設備的計算需求,使其能夠在有限的資源下運行復雜的人工智能
發表于 03-12 08:09
嵌入式人工智能的就業方向有哪些?
。 國內外科技巨頭紛紛爭先入局,在微軟、谷歌、蘋果、臉書等積極布局人工智能的同時,國內的BAT、華為、小米等科技公司也相繼切入到嵌入式人工智能的賽道。那么嵌入式AI可就業的方向有哪些呢? 嵌入式
發表于 02-26 10:17
燧原科技發布“燎原”生態合作計劃,共建通用人工智能產業化聯盟
。 以AIGC生成式內容為代表的通用人工智能正在重塑商業模式,技術創新催生了大量的新產業、新范式,也蘊含著極具潛力的商業機遇。通用人工智能應用的落地,需要將算力、智算中心、算法模型、垂直解決方案與應用場景全鏈路打通,進行有機結合
人工智能大模型、應用場景、應用部署教程超詳細資料
人工智能是IC行業近幾年的熱詞,目前此技術已經有很多成熟的模型和落地案例。在此跟大家做個分享,更多詳細資料,請自行搜索:【展銳坦克邦】,坦克邦-智算天地集算法模型、部署說明于一體,為廣大客戶提供了
發表于 11-13 14:49
ai人工智能機器人
隨著時間的推移,人工智能的發展越來越成熟,智能時代也離人們越來越近,近幾年人工智能越來越火爆,人工智能的應用已經開始滲透到各行各業,與生活交融,成為人們無法拒絕,無法失去的一個重要存在
發表于 09-21 11:09
《通用人工智能:初心與未來》-試讀報告
作者給出的結論。整體讀下來,可以給我們關于通用人工智能全面的了解。作者也反復強調了通用人工智能與專用智能的區別。尤其是人們錯誤的認為一堆專用智能堆砌起來就是
發表于 09-18 10:02
如何將人工智能應用到效能評估系統軟件中去解決
如何將人工智能應用到效能評估系統軟件中去解決
華盛恒輝效能評估系統是一種非常實用的管理工具,它可以幫助組織和企業掌握其運營狀況,優化業務流程,提高效率和生產力。然而,隨著人工智能的迅猛發展
發表于 08-30 12:58
2023通用人工智能算力論壇在京舉辦
石景山智能算力中心啟動建設 8月28日, 2023中國國際服務貿易交易會常態化活動的通用人工智能算力論壇在北京石景山成功舉辦。論壇以“智見·共創算力新時代”為主題,政府部門、院士專家學者及人工智能
科技部:人工智能法草案已列入國務院2023年立法工作計劃
當前,全球人工智能發展進入新一輪躍升期,超大規模預訓練模型的重大突破實現了人工智能的一次技術飛躍,探索出通往通用人工智能的可能路徑,并將繼續
聆心智能上榜“北京市通用人工智能大模型行業應用典型場景案例”
7月2日,作為 2023 全球數字經濟大會同期舉辦的六大高峰論壇之一,人工智能高峰論壇率先亮相。以“智能涌現·重塑未來”為主題,聚焦通用大模型發展等熱點問題,助力北京打造國際化的
【書籍評測活動NO.16】 通用人工智能:初心與未來
已經變得越來越復雜而強大,但計算機科學還遠未創造出通用人工智能(General AI)。作者結合人類自然智能的認知機理以及人工智能發展的初心與使命,帶我們從不同方面細致分析了當前
發表于 06-21 14:41
評論