<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大規模語言模型的基本概念、發展歷程和構建流程

OSC開源社區 ? 來源:OSCHINA 社區 ? 2023-12-07 11:40 ? 次閱讀

作者:華為云開發者聯盟-碼上開花_Lancer

大規模語言模型(Large Language Models,LLM),也稱大規模語言模型或大型語言模型,是一種由包含數百億以上參數的深度神經網絡構建的語言模型,使用自監督學習方法通過大量無標注文本進行訓練。自 2018 年以來,Google、OpenAI、Meta、百度、華為等公司和研究機構都相繼發布了包括 BERT,GPT 等在內多種模型,并在幾乎所有自然語言處理任務中都表現出色。2019 年大模型呈現爆發式的增長,特別是 2022 年 11 月 ChatGPT(Chat Generative Pre-trained Transformer)發布后,更是引起了全世界的廣泛關注。用戶可以使用自然語言與系統交互,從而實現包括問答、分類、摘要、翻譯、聊天等從理解到生成的各種任務。大型語言模型展現出了強大的對世界知識掌握和對語言的理解。

一、大規模語言模型基本概念

語言是人類與其他動物最重要的區別,而人類的多種智能也與此密切相關。邏輯思維以語言的形式表達,大量的知識也以文字的形式記錄和傳播。如今,互聯網上已經擁有數萬億以上的網頁資源,其中大部分信息都是以自然語言描述。因此,如果人工智能算法想要獲取知識,就必須懂得如何理解人類使用的不太精確、可能有歧義、混亂的語言。語言模型(Language Model,LM)目標就是建模自然語言的概率分布。詞匯表 V 上的語言模型,由函數 P (w1w2...wm) 表示,可以形式化地構建為詞序列 w1w2...wm 的概率分布,表示詞序列 w1w2...wm 作為一個句子出現的可能性大小。由于聯合概率 P (w1w2...wm) 的參數量十分巨大,直接計算 P (w1w2...wm) 非常困難。按照《現代漢語詞典(第七版)》包含 7 萬單詞,句子長度按照 20 個詞計算,模型參數量達到 7.9792×1096 的天文數字。中文的書面語中超過 100 個單詞的句子也并不罕見,如果要將所有可能都納入考慮,模型的復雜度還會進一步急劇增加,無法進行存儲和計算。為了減少 P (w1w2...wm) 模型的參數空間,可以利用句子序列通常情況下從左至右的生成過程進行分解,使用鏈式法則得到:

ba492354-94a5-11ee-939d-92fbcf53809c.png

由此,w1w2...wm 的生成過程可以看作單詞逐個生成的過程。首先生成 w1,之后根據 w1 生成 w2,再根據 w1 和 w2 生成 w3,以此類推,根據前 m? 1 個單詞生成最后一個單詞 wm。例如:對于句子 “把努力變成一種習慣” 的概率計算,使用上述公式可以轉化為:

ba5465ca-94a5-11ee-939d-92fbcf53809c.png

通過上述過程將聯合概率 P (w1w2...wm) 轉換為了多個條件概率的乘積。但是,僅通過上述過程模型的參數空間依然沒有下降,P (wm|w1w2...wm.1) 的參數空間依然是天文數字。為了解決上述問題,可以進一步假設任意單詞 wi 出現的概率只與過去 n ? 1 個詞相關,即:

ba61977c-94a5-11ee-939d-92fbcf53809c.png

滿足上述條件的模型被稱為 n 元語法或 n 元文法 (n-gram) 模型。其中 n-gram 表示由 n 個連續單詞構成的單元,也被稱為 n 元語法單元。盡管 n 元語言模型能緩解句子概率為 0 的問題,但語言是由人和時代創造的,具備無窮的可
能性,再龐大的訓練語料也無法覆蓋所有的 n-gram,而訓練語料中的零頻率并不代表零概率。因此,需要使用平滑技術(Smoothing)來解決這一問題,對所有可能出現的字符串都分配一個非零的概率值,從而避免零概率問題。平滑是指為了產生更合理的概率,對最大似然估計進行調整的一類方法,也稱為數據平滑(Data Smoothing)。平滑處理的基本思想是提高低概率,降低高概率,使整體的概率分布趨于均勻。這類方法通常稱為統計語言模型(Statistical Language models,SLM)。n 語法模型整體上來看與訓練語料規模和模型的階數有較大的關系,不同的平滑算法在不同情況下的表現有較大的差距。平滑算法雖然較好的解決了零概率問題,但是基于稀疏表示的 n 元語言模型仍然有三個較為明顯的缺點:(1)無法建模長度超過 n 的上下文;(2)依賴人工設計規則的平滑技術;(3)當 n 增大時,數據的稀疏性隨之增大,模型的參數量更是指數級增加,并且模型受到數據稀疏問題的影響,其參數難以被準確的學習。此外,n 語法中單詞的離散表示也忽略了詞之間的相似性。

因此,基于分布式表示和神經網絡的語言模型逐漸成為了研究熱點。Bengio 等人在 2000 年提出了使用前饋神經網絡對 P (wi|wi?n+1...wi?1) 進行估計的語言模型。詞的獨熱編碼被映射為一個低維稠密的實數向量,稱為詞向量(Word Embedding)。此后,循環神經網絡、卷積神經網絡、端到端記憶網絡等神經網絡方法都成功應用于語言模型建模。相較于 n 元語言模型,神經網絡方法可以在一定程度上避免數據稀疏問題,有些模型還可以避免對歷史長度的限制,從而更好的建模長距離依賴關系。這類方法通常稱為神經語言模型(Neural Language Models,NLM)。深度神經網絡需要采用有監督方法,使用標注數據進行訓練,因此,語言模型的訓練過程也不可避免需要構造訓練語料。但是由于訓練目標可以通過無標注文本直接獲得,從而使得模型的訓練僅需要大規模無標注文本即可語言模型也成為了典型的自監督學習(Self-supervised Learning)任務?;ヂ摼W的發展,使得大規模文本非常容易獲取,因此訓練超大規模的基于神經網絡的語言模型也成為了可能。受到計算機視覺領域采用 ImageNet 對模型進行一次預訓練,使得模型可以通過海量圖像充分學習如何提取特征,然后再根據任務目標進行模型精調的范式影響,自然語言處理領域基于預訓練語言模型的方法也逐漸成為主流。以 ELMo 為代表的動態詞向量模型開啟了語言模型預訓練的大門,此后以 GPT 和 BERT 為代表的基于 Transformer 模型的大規模預訓練語言模型的出現,使得自然語言處理全面進入了預訓練微調范式新時代。將預訓練模型應用于下游任務時,不需要了解太多的任務細節,不需要設計特定的神經網絡結構,只需要 “微調” 預訓練模型,即使用具體任務的標注數據在預訓練語言模型上進行監督訓練,就可以取得顯著的性能提升。這類方法通常稱為預訓練語言模型(Pre-trained Language Models,PLM)。2020 年 Open AI 發布了包含 1750 億參數的生成式大規模預訓練語言模型 GPT-3(GenerativePre-trained Transformer 3)。開啟了大規模語言模型的時代。由于大規模語言模型的參數量巨大,如果在不同任務上都進行微調需要消耗大量的計算資源,因此預訓練微調范式不再適用于大規模語言模型。但是研究人員發現,通過語境學習(Incontext Learning,ICL)等方法,直接使用大規模語言模型就可以在很多任務的少樣本場景下取得了很好的效果。此后,研究人員們提出了面向大規模語言模型的提示詞(Prompt)學習方法、模型即服務范式(Model as a Service,MaaS)、指令微調(Instruction Tuning)等方法,在不同任務上都取得了很好的效果。與此同時,Google、Meta、百度、華為等公司和研究機構都紛紛發布了包括 PaLM、LaMDA、T0 等為代表的不同大型語言模型。

2022 年底 ChatGPT 的出現,將大規模語言模型的能力進行了充分的展現,也引發了大規模語言模型研究的熱潮。Kaplan 等人在文獻中提出了縮放法則(Scaling Laws),指出模型的性能依賴于模型的規模,包括:參數數量、數據集大小和計算量,模型的效果會隨著三者的指數增加而線性提高。如圖 1.1 所示,模型的損失(Loss)值隨著模型規模的指數增大而線性降低。這意味著模型的能力是可以根據這三個變量估計的,提高模型參數量,擴大數據集規模都可以使得模型的性能可預測地提高。這為繼續提升大模型的規模給出了定量分析依據。

ba6c8ccc-94a5-11ee-939d-92fbcf53809c.png

圖 1.1 大規模語言模型的縮放法則(Scaling Laws)

二、大規模語言模型發展歷程

大規模語言模型的發展歷程雖然只有短短不到五年的時間,但是發展速度相當驚人,截止 2023 年 6 月,國內外有超過百種大模型相繼發布。中國人民大學趙鑫教授團隊在文獻按照時間線給出 2019 年至 2023 年 5 月比較有影響力并且模型參數量超過 100 億的大規模語言模型,如圖 2.1 所示。大規模語言模型的發展可以粗略的分為如下三個階段:基礎模型、能力探索、突破發展。

基礎模型階段主要集中于 2018 年至 2021 年,2017 年 Vaswani 等人提出了 Transformer [架構,在機器翻譯任務上取得了突破性進展。2018 年 Google 和 Open AI 分別提出了 BERT [1] 和 GPT-1 模型,開啟了預訓練語言模型時代。BERT-Base 版本參數量為 1.1 億,BERT-Large 的參數量為 3.4 億,GPT-1 的參數量 1.17 億。這在當時,相比其它深度神經網絡的參數量已經是有數量級上提升。2019 年 Open AI 又發布了 GPT-2,其參數量達到了 15 億。此后,Google 也發布了參數規模為 110 億的 T5 模型。2020 年 Open AI 進一步將語言模型參數量擴展到 1750 億,發布了 GPT-3。此后,國內也相繼推出了一系列的大規模語言模型,包括清華大學ERNIE(THU)、百度ERNIE(Baidu)、華為盤古 -α 等。這個階段研究主要集中語言模型本身,包括僅編碼器(Encoder Only)、編碼器 - 解碼器(Encoder-Decoder)、僅解碼器(Decoder Only)等各種類型的模型結構都有相應的研究。模型大小與 BERT 相類似的算法,通常采用預訓練微調范式,針對不同下游任務進行微調。但是模型參數量在 10 億以上時,由于微調的計算量很高,這類模型的影響力在當時相較 BERT 類模型有不小的差距。

ba74bb04-94a5-11ee-939d-92fbcf53809c.png

圖 2.1 大規模語言模型發展時間線

能力探索階段集中于 2019 年至 2022 年,由于大規模語言模型很難針對特定任務進行微調,研究人員們開始探索在不針對單一任務進行微調的情況下如何能夠發揮大規模語言模型的能力。2019 年 Radford 等人 就使用 GPT-2 模型研究了大規模語言模型在零樣本情況下的任務處理能力。在此基礎上,Brown 等人在 GPT-3 模型上研究了通過語境學習(In-Context Learning)進行少樣本學習的方法。將不同任務的少量有標注的實例拼接到待分析的樣本之前輸入語言模型,用語言模型根據實例理解任務并給出正確結果。在包括 TriviaQA、WebQS、CoQA 等評測集合都展示出了非常強的能力,在有些任務中甚至超過了此前的有監督方法。上述方法不需要修改語言模型的參數,模型在處理不同任務時無需花費的大量計算資源進行模型微調。但是僅依賴基于語言模型本身,其性能在很多任務上仍然很難達到有監督學習效果,因此研究人員們提出了指令微調(Instruction Tuning)方案,將大量各類型任務,統一為生成式自然語言理解框架,并構造訓練語料進行微調。

突破發展階段以 2022 年 11 月 ChatGPT 的發布為起點。ChatGPT 通過一個簡單的對話框,利用一個大規模語言模型就可以實現問題回答、文稿撰寫、代碼生成、數學解題等過去自然語言處理系統需要大量小模型訂制開發才能分別實現的能力。它在開放領域問答、各類自然語言生成式任務以及對話上文理解上所展現出來的能力遠超大多數人的想象。2023 年 3 月 GPT-4 發布,相較于 ChatGPT 又有了非常明顯的進步,并具備了多模態理解能力。GPT-4 在多種基準考試測試上的得分高于 88% 的應試者,包括美國律師資格考試(Uniform Bar Exam)、法學院入學考試(Law School Admission Test)、學術能力評估(Scholastic Assessment Test,SAT)等。它展現了近乎 “通用人工智能(AGI)” 的能力。各大公司和研究機構也相繼發布了此類系統,包括 Google 推出的 Bard、百度的文心一言、科大訊飛的星火大模型、智譜 ChatGLM、復旦大學 MOSS 等。表 1.1 給出了截止 2023 年 6 月典型開源和未開源大規模語言模型的基本情況??梢钥吹綇?2022 年開始大模型呈現爆發式的增長,各大公司和研究機構都在發布各種不同類型的大模型。

三、 大規模語言模型構建流程

根據 OpenAI 聯合創始人 Andrej Karpathy 在微軟 Build 2023 大會上所公開的信息,OpenAI 所使用的大規模語言模型構建流程如圖 2.2 所示。主要包含四個階段:預訓練、有監督微調、獎勵建模、強化學習。這四個階段都需要不同規模數據集合、不同類型的算法,產出不同類型的模型,所需要的資源也有非常大的差別。

ba82cc26-94a5-11ee-939d-92fbcf53809c.png

圖 2.2 OpenAI 使用的大規模語言模型構建流程

預訓練(Pretraining)階段需要利用海量的訓練數據,包括互聯網網頁、維基百科、書籍、GitHub、論文、問答網站等,構建包含數千億甚至數萬億單詞的具有多樣性的內容。利用由數千塊高性能 GPU 和高速網絡組成超級計算機,花費數十天完成深度神經網絡參數訓練,構建基礎語言模型(Base Model)?;A大模型構建了長文本的建模能力,使得模型具有語言生成能力,根據輸入的提示詞(Prompt),模型可以生成文本補全句子。也有部分研究人員認為,語言模型建模過程中也隱含的構建了包括事實性知識(Factual Knowledge)和常識知識(Commonsense)在內的世界知識(World Knowledge)。根據他們的文獻介紹,GPT-3 完成一次訓練的總計算量是 3640PFlops,按照 NVIDIA A100 80G 和平均利用率達到 50% 計算,需要花費近一個月時間使用 1000 塊 GPU 完成。

ba8f0db0-94a5-11ee-939d-92fbcf53809c.png

表 1.1 典型開源大規模語言模型匯總

ba9b1240-94a5-11ee-939d-92fbcf53809c.png

表 1.2 典型閉源大規模語言模型匯總

有監督微調(Supervised Finetuning),也稱為指令微調(Instruction Tuning),利用少量高質量數據集合,包含用戶輸入的提示詞(Prompt)和對應的理想輸出結果。用戶輸入包括問題、閑聊對話、任務指令等多種形式和任務。

例如:提示詞(Prompt):復旦大學有幾個校區?

理想輸出:復旦大學現有 4 個校區,分別是邯鄲校區、新江灣校區、楓林校區和張江校區。其中邯鄲校區是復旦大學的主校區,邯鄲校區與新江灣校區都位于楊浦區,楓林校區位于徐匯區,張江校區位于浦東新區。

利用這些有監督數據,使用與預訓練階段相同的語言模型訓練算法,在基礎語言模型基礎上再進行訓練,從而得到有監督微調模型(SFT 模型)。經過訓練的 SFT 模型具備了初步的指令理解能力和上下文理解能力,能夠完成開放領域問題、閱讀理解、翻譯、生成代碼等能力,也具備了一定的對未知任務的泛化能力。由于有監督微調階段的所需的訓練語料數量較少,SFT 模型的訓練過程并不需要消耗非常大量的計算。根據模型的大小和訓練數據量,通常需要數十塊 GPU,花費數天時間完成訓練。SFT 模型具備了初步的任務完成能力,可以開放給用戶使用,很多類 ChatGPT 的模型都屬于該類型,包括:Alpaca、Vicuna、MOSS、ChatGLM-6B 等。很多這類模型效果也非常好,甚至在一些評測中達到了 ChatGPT 的 90% 的效果。當前的一些研究表明有監督微調階段數據選擇對 SFT 模型效果有非常大的影響,因此如何構造少量并且高質量的訓練數據是本階段有監督微調階段的研究重點。

目標是構建一個文本質量對比模型,對于同一個提示詞,SFT 模型給出的多個不同輸出結果的質量進行排序。獎勵模型(RM 模型)可以通過二分類模型,對輸入的兩個結果之間的優劣進行判斷。RM 模型與基礎語言模型和 SFT 模型不同,RM 模型本身并不能單獨提供給用戶使用。獎勵模型的訓練通常和 SFT 模型一樣,使用數十塊 GPU,通過幾天時間完成訓練。由于 RM 模型的準確率對于強化學習階段的效果有著至關重要的影響,因此對于該模型的訓練通常需要大規模的訓練數據。Andrej Karpathy 在報告中指出,該部分需要百萬量級的對比數據標注,而且其中很多標注需要花費非常長的時間才能完成。圖 2.3 給出了 InstructGPT 系統中獎勵模型訓練樣本標注示例??梢钥吹?,示例中文本表達都較為流暢,標注其質量排序需要制定非常詳細的規范,標注人員也需要非常認真的對標規范內容進行標注,需要消耗大量的人力,同時如何保持眾包標注人員之間的一致性,也是獎勵建模階段需要解決的難點問題之一。此外獎勵模型的泛化能力邊界也在本階段需要重點研究的另一個問題。如果 RM 模型的目標是針對所有提示詞系統所生成輸出都能夠高質量的進行判斷,該問題所面臨的難度在某種程度上與文本生成等價,因此如何限定 RM 模型應用的泛化邊界也是本階段難點問題。

baa5fe26-94a5-11ee-939d-92fbcf53809c.png

圖 2.3 InstructGPT 系統中獎勵模型訓練樣本標注示例

強化學習(Reinforcement Learning)階段根據數十萬用戶給出的提示詞,利用在前一階段訓練的 RM 模型,給出 SFT 模型對用戶提示詞補全結果的質量評估,并與語言模型建模目標綜合得到更好的效果。該階段所使用的提示詞數量與有監督微調階段類似,數量在十萬量級,并且不需要人工提前給出該提示詞所對應的理想回復。使用強化學習,在 SFT 模型基礎上調整參數,使得最終生成的文本可以獲得更高的獎勵(Reward)。該階段所需要的計算量相較預訓練階段也少很多,通常也僅需要數十塊 GPU,經過數天時間的即可完成訓練。文獻 [給出了強化學習和有監督微調的對比,在模型參數量相同的情況下,強化學習可以得到相較于有監督微調好得多的效果。關于為什么強化學習相比有監督微調可以得到更好結果的問題,截止到 2023 年 9 月也還沒有完整和得到普遍共識的解釋。此外,Andrej Karpathy 也指出強化學習也并不是沒有問題的,它會使得基礎模型的熵降低,從而減少了模型輸出的多樣性。在經過強化學習方法訓練完成后的 RL 模型,就是最終提供給用戶使用具有理解用戶指令和上下文的類 ChatGPT 系統。由于強化學習方法穩定性不高,并且超參數眾多,使得模型收斂難度大,再疊加 RM 模型的準確率問題,使得在大規模語言模型如何能夠有效應用強化學習非常困難。

大語言模型研究進展之快,讓在自然語言處理領域開展了近三十年工作的我們也難以適從。其研究之火爆程度令人咋舌,自然語言處理領域重要國際會議 EMNLP,2022 年語言模型相關論文投稿占比只有不到 5%。然而,2023 年語言模型相關投稿則超過了 EMNLP 整體投稿的 20%。如何能夠兼顧大語言模型的基礎理論,又能夠在快速發展的各種研究中選擇最具有代表性的工作介紹給大家,是寫作中面臨的最大挑戰之一,受限于我們的認知水平和所從事的研究工作的局限,對其中一些任務和工作的細節理解可能存在不少錯誤,也懇請專家、讀者批評指正!

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1781

    文章

    44771

    瀏覽量

    231921
  • 語言模型
    +關注

    關注

    0

    文章

    463

    瀏覽量

    10150
  • 華為云
    +關注

    關注

    3

    文章

    2210

    瀏覽量

    16942
  • ChatGPT
    +關注

    關注

    28

    文章

    1485

    瀏覽量

    5653

原文標題:帶你了解大語言模型的前世今生

文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    ,在大模型實踐和理論研究的過程中,歷時8個月完成 《大規模語言模型:從理論到實踐》 一書的撰寫。希望這本書能夠幫助讀者快速入門大模型的研究和
    發表于 03-11 15:16

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    《大語言模型》是一本深入探討人工智能領域中語言模型的著作。作者通過對語言模型
    發表于 04-30 15:35

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    用于文本生成,根據提示或上下文生成連貫、富有創造性的文本,為故事創作等提供無限可能。大語言模型也面臨挑戰。一方面,其計算資源需求巨大,訓練和推理耗時;另一方面,模型高度依賴數據,需要大規模
    發表于 05-04 23:55

    大規模語言模型:從理論到實踐】- 閱讀體驗

    和抗噪聲能力;以及通過可視化工具來增強模型的解釋性等。同時,隨著技術的不斷進步和發展,在未來能夠發展出更加高效、健壯和可解釋的大語言模型。
    發表于 06-07 14:44

    C語言基本概念及語法

    C語言基本概念和語法供初學者研討
    發表于 08-18 10:32

    C語言基本概念

    C語言基本概念
    發表于 08-01 02:00

    大規模特征構建實踐總結

    背景一般大公司的機器學習團隊,才會嘗試構建大規模機器學習模型,如果去看百度、頭條、阿里等分享,都有提到過這類模型。當然,大家現在都在說深度學習,但在推薦、搜索的場景,據我所知,ROI并
    發表于 11-19 09:35

    大規模MIMO的性能

    軌跡產生的容量斜坡仍然比需求線平坦。面對此挑戰,3GPP 標準實體近來提出了數據容量“到2020 年增長1000 倍”的目標,以滿足演進性或革命性創意的需要。這種概念要求基站部署極大規模的天線陣
    發表于 07-17 07:54

    大規模集成電路的生產工藝流程

    、通訊等許多行業上的最終產品,它可以包括CPU、內存單元和其它各種專業應用芯片。本文有關超大規模集成電路的一些基本概念、主要生產工藝流程及其產業特點等做一個簡要介紹。
    發表于 07-29 06:05

    匯編語言發展歷程和特點

    來源:互聯網程序員會用到很多編程語言,下面一起了解下匯編語言,以及發展歷程,語言特點......
    發表于 10-22 11:49

    構建大規模MIMO的難點在哪?

    構建大規模MIMO的難點在哪?高功率硅開關的應用案列分析
    發表于 03-11 07:05

    人工智能基本概念機器學習算法

    目錄人工智能基本概念機器學習算法1. 決策樹2. KNN3. KMEANS4. SVM5. 線性回歸深度學習算法1. BP2. GANs3. CNN4. LSTM應用人工智能基本概念數據集:訓練集
    發表于 09-06 08:21

    如何向大規模預訓練語言模型中融入知識?

    本文關注于向大規模預訓練語言模型(如RoBERTa、BERT等)中融入知識。
    的頭像 發表于 06-23 15:07 ?3761次閱讀
    如何向<b class='flag-5'>大規模</b>預訓練<b class='flag-5'>語言</b><b class='flag-5'>模型</b>中融入知識?

    NVIDIA聯合構建大規模模擬和訓練 AI 模型

    Champollion 超級計算機位于格勒諾布爾,由慧與和 NVIDIA 聯合構建,它將為全球科學和工業領域的用戶創建大規模模擬和訓練 AI 模型。
    的頭像 發表于 06-14 14:56 ?1626次閱讀

    NVIDIA NeMo最新語言模型服務幫助開發者定制大規模語言模型

    NVIDIA NeMo 大型語言模型(LLM)服務幫助開發者定制大規模語言模型;NVIDIA BioNeMo 服務幫助研究人員生成和預測分子
    發表于 09-22 10:42 ?808次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>