<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

PyTorch教程-11.9. 使用 Transformer 進行大規模預訓練

jf_pJlTbmA9 ? 來源:PyTorch ? 作者:PyTorch ? 2023-06-05 15:44 ? 次閱讀

到目前為止,在我們的圖像分類和機器翻譯實驗中,模型是在具有輸入輸出示例的數據集上從頭開始訓練的,以執行特定任務。例如,Transformer 使用英法對(第 11.7 節)進行訓練,因此該模型可以將輸入的英文文本翻譯成法文。因此,每個模型都成為一個特定的專家,即使是數據分布的微小變化也很敏感(第 4.7 節)。對于更好的泛化模型,或者更勝任的通才,可以在有或沒有適應的情況下執行多項任務,大數據的預訓練模型越來越普遍。

給定更大的預訓練數據,Transformer 架構在模型大小和訓練計算增加的??情況下表現更好,展示了卓越的縮放行為。具體而言,基于 Transformer 的語言模型的性能與模型參數、訓練標記和訓練計算的數量成冪律關系 (Kaplan等人,2020 年)。Transformers 的可擴展性還可以通過在更大數據上訓練的更大視覺 Transformers 的顯著提升性能得到證明(在第 11.8 節中討論 )。最近的成功案例包括 Gato,這是一個可以玩 Atari、字幕圖像、聊天并充當機器人的多面手模型(Reed等。, 2022 )。Gato 是一個單一的 Transformer,在對不同模式(包括文本、圖像、關節力矩??和按鈕按下)進行預訓練時可以很好地擴展。值得注意的是,所有此類多模態數據都被序列化為一個扁平的標記序列, Transformers可以將其處理為類似于文本標記(第11.7 節)或圖像補?。ǖ?11.8 節)。

在為多模態數據預訓練 Transformers 取得令人矚目的成功之前,Transformers 使用大量文本進行了廣泛的預訓練。最初提出用于機器翻譯,圖 11.7.1中的 Transformer 架構由一個用于表示輸入序列的編碼器和一個用于生成目標序列的解碼器組成?;旧?,Transformer 可以用于三種不同的模式: encoder-only、encoder-decoder和decoder-only。作為本章的總結,我們將回顧這三種模式并解釋預訓練 Transformers 的可擴展性。

11.9.1。僅編碼器

當僅使用 Transformer 編碼器時,一系列輸入標記被轉換為相同數量的表示,這些表示可以進一步投影到輸出(例如,分類)。Transformer 編碼器由自注意力層組成,其中所有輸入標記相互關注。例如,圖 11.8.1中描述的視覺 Transformers 僅是編碼器,將一系列輸入圖像塊轉換為特殊“”標記的表示。由于這種表示依賴于所有輸入標記,因此它被進一步投射到分類標簽中。這種設計的靈感來自早期在文本上預訓練的僅編碼器 Transformer:BERT(Bidirectional Encoder Representations from Transformers)(Devlin等人,2018 年)。

11.9.1.1。預訓練 BERT

pYYBAGR9OHeAKeDfAAJrEjsu3QU829.svg

圖 11.9.1左:使用掩碼語言建模預訓練 BERT。對被屏蔽的“love”token 的預測取決于“love”前后的所有輸入 token。右圖:Transformer 編碼器中的注意力模式。垂直軸上的每個標記都涉及水平軸上的所有輸入標記。

BERT 使用掩碼語言建模在文本序列上進行預訓練:帶有隨機掩碼標記的輸入文本被送入 Transformer 編碼器以預測掩碼標記。如圖11.9.1所示 ,原始文本序列“I”、“love”、“this”、“red”、“car”前面加上“”標記,“” token隨機替換“love”;那么在預訓練期間,掩碼標記“love”與其預測之間的交叉熵損失將被最小化。請注意,Transformer 編碼器的注意力模式沒有約束( 圖 11.9.1右側)) 所以所有的代幣都可以互相關注。因此,“愛”的預測取決于序列中它前后的輸入標記。這就是 BERT 是“雙向編碼器”的原因。無需人工標注,可以使用書籍和維基百科中的大規模文本數據來預訓練 BERT。

11.9.1.2。微調 BERT

預訓練的 BERT 可以針對涉及單個文本或文本對的下游編碼任務進行微調。在微調期間,可以使用隨機參數向 BERT 添加額外的層:這些參數和那些預訓練的 BERT 參數將被更新以適應下游任務的訓練數據。

pYYBAGR9OHqAAQ5HAADj-I3Ueu4017.svg

圖 11.9.2微調 BERT 以進行情緒分析。

圖 11.9.2說明了用于情緒分析的 BERT 微調。Transformer 編碼器是一個預訓練的 BERT,它將文本序列作為輸入并將“”表示(輸入的全局表示)饋送到額外的全連接層以預測情緒。在微調期間,通過基于梯度的算法最小化預測和情感分析數據標簽之間的交叉熵損失,其中從頭開始訓練附加層,同時更新 BERT 的預訓練參數。BERT 做的不僅僅是情緒分析。3.5 億參數 BERT 從 2500 億個訓練標記中學習到的通用語言表征提升了自然語言任務的最新水平,例如單一文本分類、文本對分類或回歸、文本標記和問答。

您可能會注意到這些下游任務包括文本對理解。BERT 預訓練還有另一個損失,用于預測一個句子是否緊跟另一個句子。然而,后來發現在對 20000 億個令牌預訓練相同大小的 BERT 變體 RoBERTa 時,這種損失沒有用(Liu等人,2019 年)。BERT 的其他衍生產品改進了模型架構或預訓練目標,例如 ALBERT(強制參數共享)(Lan等人,2019 年)、SpanBERT(表示和預測文本跨度)(Joshi等人,2020 年)、DistilBERT(輕量級通過知識蒸餾) (桑等人。, 2019 )和 ELECTRA(替代令牌檢測) (Clark等人,2020)。此外,BERT 啟發了計算機視覺中的 Transformer 預訓練,例如視覺 Transformers ( Dosovitskiy et al. , 2021 )、Swin Transformers ( Liu et al. , 2021 )和 MAE (masked autoencoders) ( He et al. , 2022 )。

11.9.2。編碼器-解碼器

由于 Transformer 編碼器將一系列輸入標記轉換為相同數量的輸出表示,因此僅編碼器模式無法像機器翻譯那樣生成任意長度的序列。正如最初為機器翻譯提出的那樣,Transformer 架構可以配備一個解碼器,該解碼器可以自動回歸預測任意長度的目標序列,逐個標記,以編碼器輸出和解碼器輸出為條件:(i)對于編碼器輸出的條件,編碼器-解碼器交叉注意力(圖 11.7.1中解碼器的多頭注意力)允許目標標記關注所有輸入標記;(ii) 對解碼器輸出的調節是通過所謂的因果關系實現的注意(這個名稱在文獻中很常見,但具有誤導性,因為它與正確的因果關系研究幾乎沒有聯系)模式(圖 11.7.1中解碼器的屏蔽多頭注意),其中任何目標標記只能關注過去并在目標序列中呈現標記。

為了在人工標記的機器翻譯數據之外預訓練編碼器-解碼器 Transformer,BART (Lewis等人,2019 年)和 T5 (Raffel等人,2020 年)是兩個同時提出的在大規模文本語料庫上預訓練的編碼器-解碼器 Transformer。兩者都試圖在其預訓練目標中重建原始文本,而前者強調噪聲輸入(例如,掩蔽、刪除、排列和旋轉),后者則強調通過綜合消融研究實現多任務統一。

11.9.2.1。預訓練T5

作為預訓練的 Transformer 編碼器-解碼器的示例,T5(文本到文本傳輸轉換器)將許多任務統一為相同的文本到文本問題:對于任何任務,編碼器的輸入都是任務描述(例如, “總結”、“:”)之后是任務輸入(例如,文章中的一系列標記),解碼器預測任務輸出(例如,一系列標記對輸入文章的總結)。為了執行文本到文本,T5 被訓練為根據輸入文本生成一些目標文本。

pYYBAGR9OH2AQDO6AAKnL2VL1j0127.svg

圖 11.9.3左:通過預測連續跨度來預訓練 T5。原句為“I”、“love”、“this”、“red”、“car”,其中“love”被特殊的“”token 代替,連續的“red”、“car”為替換為特殊的“”標記。目標序列以特殊的“”標記結尾。右圖:Transformer 編碼器-解碼器中的注意力模式。在編碼器自注意力(下方塊)中,所有輸入標記都相互關注;在編碼器-解碼器交叉注意力(上部矩形)中,每個目標標記關注所有輸入標記;在解碼器自我關注(上三角)中,每個目標標記僅關注當前和過去的目標標記(因果關系)。

為了從任何原始文本中獲取輸入和輸出,T5 被預訓練以預測連續的跨度。具體來說,來自文本的標記被隨機替換為特殊標記,其中每個連續的跨度被相同的特殊標記替換??紤]圖 11.9.3中的示例 ,其中原始文本是“I”、“love”、“this”、“red”、“car”。標記“love”、“red”、“car”隨機替換為特殊標記。由于“red”和“car”是連續的跨度,因此它們被相同的特殊標記替換。結果,輸入序列為“I”、“”、“this”、“”,目標序列為“”、“love”、“”、“ red”,“car”,“”,其中“”是另一個標記結束的特殊標記。如圖 11.9.3,解碼器有一個因果注意模式,以防止自己在序列預測期間關注未來的標記。

在 T5 中,預測連續跨度也稱為重建損壞的文本。為了實現這一目標,T5 使用來自 C4(Colossal Clean Crawled Corpus)數據的 10000 億個標記進行了預訓練,該數據由來自 Web 的干凈英文文本組成(Raffel等人,2020 年)。

11.9.2.2。微調T5

與 BERT 類似,T5 需要在任務特定的訓練數據上進行微調(更新 T5 參數)以執行此任務。與 BERT 微調的主要區別包括:(i)T5 輸入包括任務描述;(ii) T5 可以通過其 Transformer 解碼器生成任意長度的序列;(iii) 不需要額外的層。

poYBAGR9OH-AQYWyAAJRdL4n87Y472.svg

圖 11.9.4為文本摘要微調 T5。任務描述和文章標記都被送入 Transformer 編碼器以預測摘要。

圖 11.9.4以文本摘要為例解釋了微調 T5。在這個下游任務中,任務描述標記“Summarize”、“:”和文章標記被輸入到編碼器。

經過微調后,110 億參數的 T5 (T5-11B) 在多個編碼(例如分類)和生成(例如摘要)基準測試中取得了最先進的結果。自發布以來,T5在后期研究中得到了廣泛的應用。例如,開關 Transformer 的設計基于 T5 以激活參數子集以提高計算效率(Fedus等人,2022 年)。在名為 Imagen 的文本到圖像模型中,文本被輸入到具有 46 億個參數的凍結 T5 編碼器 (T5-XXL) (Saharia等人,2022 年)。圖 11.9.5中逼真的文本到圖像示例建議即使沒有微調,單獨的 T5 編碼器也可以有效地表示文本。

11.9.3。僅解碼器

我們已經回顧了僅編碼器和編碼器-解碼器 Transformers?;蛘?,僅解碼器的 Transformer 從圖 11.7.1中描繪的原始編碼器-解碼器架構中移除了整個編碼器和具有編碼器-解碼器交叉注意力的解碼器子層 。如今,只有解碼器的 Transformer 已經成為大規模語言建模(第 9.3 節)中的實際架構,它通過自監督學習利用世界上豐富的未標記文本語料庫。

11.9.3.1。GPT 和 GPT-2

GPT(生成預訓練)模型以語言建模為訓練目標,選擇 Transformer 解碼器作為其主干 (Radford等人,2018 年)。

pYYBAGR9OI-AaD8JAAHtfc_5TVA349.svg

圖 11.9.6左:使用語言建模預訓練 GPT。目標序列是輸入序列移位一個標記?!啊焙汀啊倍际欠謩e標記序列開始和結束的特殊標記。右圖:Transformer 解碼器中的注意力模式。垂直軸上的每個標記僅關注其過去沿水平軸的標記(因果關系)。

按照第 9.3.3 節中描述的自回歸語言模型訓練 ,圖 11.9.6 說明了使用 Transformer 編碼器進行 GPT 預訓練,其中目標序列是輸入序列移位一個標記。請注意,Transformer 解碼器中的注意力模式強制每個標記只能關注其過去的標記(無法關注未來的標記,因為它們尚未被選擇)。

GPT 有 1 億個參數,需要針對個別下游任務進行微調。一年后推出了更大的 Transformer-decoder 語言模型 GPT-2 (Radford等人,2019 年)。與 GPT 中原始的 Transformer 解碼器相比, GPT-2 采用了預歸一化(在11.8.3 節中討論)和改進的初始化和權重縮放。在 40 GB 的文本上進行預訓練,15 億參數的 GPT-2 在語言建?;鶞蕼y試中獲得了最先進的結果,并且在不更新參數或架構的情況下在多個其他任務上獲得了有希望的結果。

11.9.3.2。GPT-3

GPT-2 展示了在不更新模型的情況下對多個任務使用相同語言模型的潛力。這比微調在計算上更有效,微調需要通過梯度計算更新模型。

poYBAGR9OJKAd56tAAebSage_C8243.svg

圖 11.9.7使用語言模型(Transformer 解碼器)進行零樣本、單樣本、少樣本上下文學習。不需要更新參數。

在解釋在沒有參數更新的情況下更高效地使用語言模型之前,請回顧第 9.5 節,可以訓練語言模型以生成以某些前綴文本序列為條件的文本序列。因此,預訓練語言模型可以將任務輸出生成為沒有參數更新的序列,以具有任務描述、特定于任務的輸入輸出示例和提示(任務輸入)的輸入序列為條件。這種學習范式稱為情境學習 ( Brown et al. , 2020 ),可進一步分為 零樣本、單樣本和少樣本,當分別沒有、一個和幾個特定于任務的輸入輸出示例時(圖 11.9.7)。

pYYBAGR3JQeAWFuSAAQJ2KjPVv8401.png

圖 11.9.8 GPT-3 在所有 42 個以準確度命名的基準中的綜合性能(改編的標題和來自 Brown等人(2020)的圖)。

這三個設置在 GPT-3 中進行了測試(Brown等人,2020 年),其最大版本使用的數據和模型大小比 GPT-2 大兩個數量級。GPT-3 在其直接前身 GPT-2 中使用相同的 Transformer 解碼器架構,除了注意模式(圖 11.9.6右側)在交替層更稀疏。使用 3000 億個標記進行預訓練后,GPT-3 在更大的模型尺寸下表現更好,其中 few-shot 性能增加最快(圖 11.9.8)。

大型語言模型提供了一個令人興奮的前景,即制定文本輸入以誘導模型通過上下文學習執行所需的任務,這也稱為提示。例如,鏈式思維提示 ( Wei et al. , 2022 ),一種具有少量“問題、中間推理步驟、答案”演示的上下文學習方法,引出大型語言模型的復雜推理能力來解決數學、常識和符號推理任務。采樣多個推理路徑 (Wang et al. , 2023),多樣化 few-shot demonstrations (Zhang et al. , 2023) , 以及將復雜問題分解為子問題( Zhou et al. , 2023 )都可以提高推理精度。事實上,在每個答案之前通過“讓我們逐步思考”這樣的簡單提示,大型語言模型甚至可以相當準確地執行 零樣本思維鏈推理 (Kojima等人,2022 年)。即使對于包含文本和圖像的多模態輸入,語言模型也可以執行多模態思維鏈推理,其準確性比僅使用文本輸入進一步提高 (Zhang et al. , 2023)。

11.9.4??蓴U展性

圖 11.9.8憑經驗證明了 Transformer 在 GPT-3 語言模型中的可擴展性。對于語言建模,關于 Transformer 可擴展性的更全面的實證研究使研究人員看到了用更多數據和計算來訓練更大的 Transformer 的希望(Kaplan等人,2020 年)。

pYYBAGR3JQ6AARq7AAIJqbQSdzI551.png

圖 11.9.9 Transformer 語言模型性能隨著我們增加模型大小、數據集大小和用于訓練的計算量而平穩提高。為了獲得最佳性能,必須同時放大所有三個因素。當沒有受到其他兩個因素的瓶頸時,經驗表現與每個單獨因素都具有冪律關系(改編自Kaplan等人(2020 年)的圖)。

如圖 11.9.9所示,在模型大?。▍禂盗?,不包括嵌入層)、數據集大?。ㄓ柧毩钆茢盗浚┖陀柧氂嬎懔浚?PetaFLOP/s-days,不包括嵌入層)。一般來說,同時增加所有這三個因素會帶來更好的性能。然而,如何同時增加它們仍然是一個有爭議的問題 ( Hoffmann et al. , 2022 )。

poYBAGR3JRKAJcI2AAOYdP8olMk374.png

圖 11.9.10 Transformer 語言模型訓練運行(圖取自 Kaplan等人(2020))。

除了提高性能外,大型模型還具有比小型模型更好的采樣效率。圖 11.9.10顯示,大型模型需要更少的訓練樣本(處理的令牌)才能達到小型模型達到的相同水平,并且性能隨計算平滑擴展。

pYYBAGR3JRWAZYFUAAGFeogXsJI283.png

圖 11.9.11 GPT-3 性能(交叉熵驗證損失)隨著用于訓練的計算量遵循冪律趨勢。在Kaplan等人中觀察到的冪律行為。( 2020 )繼續增加兩個數量級,與預測曲線的偏差很小。嵌入參數被排除在計算和參數計數之外(標題改編自 Brown等人( 2020 ))。

Kaplan等人的經驗縮放行為。( 2020 )已經在后續的大型 Transformer 模型中進行了測試。例如,GPT-3 在 圖 11.9.11中以兩個數量級支持了這一假設。

GPT 系列中 Transformers 的可擴展性啟發了后續的 Transformer 語言模型。雖然 GPT-3 中的 Transformer 解碼器在 OPT(Open Pretrained Transformers) (Zhang等人,2022 年)中得到廣泛應用,但碳足跡僅為前者的 1/7,而 GPT-2 Transformer 解碼器用于訓練 530 -十億參數威震天-圖靈 NLG (Smith等人,2022 年),具有 2700 億個訓練令牌。繼 GPT-2 設計之后,2800 億參數的 Gopher ( Rae et al. , 2021 )經過 3000 億個標記的預訓練,在大約 150 個不同的任務中,大多數人都取得了最先進的表現。Chinchilla (Hoffmann等人,2022 年)繼承了與 Gopher 相同的架構并使用相同的計算預算, 是一個小得多(700 億個參數)的模型,訓練時間長得多(1.4 萬億訓練令牌),在許多任務上優于 Gopher。為了繼續擴大語言建模的規模,PaLM(路徑語言模型) (Chowdhery等人,2022 年)是一種 5400 億參數的 Transformer 解碼器,其設計經過修改,在 7800 億個標記上進行了預訓練,在 BIG-Bench 上的表現優于人類平均水平基準 (斯利瓦斯塔瓦等。, 2022 )。在 Minerva (Lewkowycz等人,2022 年)中對包含科學和數學內容的 385 億個標記進一步訓練 PaLM ,這是一個大型語言模型,可以回答近三分之一需要定量推理的本科水平問題,例如物理、化學、生物學和經濟學。

魏等。( 2022 )討論了大型語言模型的涌現能力,這些能力只存在于較大的模型中,但不存在于較小的模型中。然而,簡單地增加模型大小并不能從本質上使模型更好地遵循人類指令。遵循通過微調使語言模型與人類意圖保持一致的 InstructGPT (Ouyang等人,2022), ChatGPT能夠從與人類的對話中遵循指令,例如代碼調試和筆記起草。

11.9.5??偨Y與討論

Transformer 已被預訓練為僅編碼器(例如 BERT)、編碼器-解碼器(例如 T5)和僅解碼器(例如 GPT 系列)。預訓練模型可以適用于執行不同的任務,包括模型更新(例如,微調)或不更新(例如,少量鏡頭)。Transformer 的可擴展性表明更好的性能受益于更大的模型、更多的訓練數據和更多的訓練計算。由于 Transformer 最初是為文本數據設計和預訓練的,因此本節稍微傾向于自然語言處理。盡管如此,上面討論的那些模型經??梢栽诳缍喾N模式的更新模型中找到。例如,(i) Chinchilla ( Hoffmann et al. , 2022 )被進一步擴展到 Flamingo ( Alayrac等。, 2022 ), 一種用于小樣本學習的視覺語言模型;(ii) GPT-2( Radford et al. , 2019 )和 vision Transformer 在 CLIP (Contrastive Language-Image Pre-training)( Radford et al. , 2021 ),其圖像和文本嵌入后來被采用在 DALL-E 2 文本到圖像系統中 ( Ramesh等人,2022 年)。雖然目前還沒有關于多模態預訓練中 Transformer 可擴展性的系統研究,但最近的一個全 Transformer 文本到圖像模型 Parti ( Yu et al. , 2022 ),顯示了跨模態的可擴展性潛力:更大的 Parti 更有能力生成高保真圖像和理解內容豐富的文本(圖 11.9.12)。

11.9.6。練習

是否可以使用由不同任務組成的小批量來微調 T5?為什么或者為什么不?GPT-2 怎么樣?

給定一個強大的語言模型,你能想到什么應用?

假設您被要求微調語言模型以通過添加額外的層來執行文本分類。你會在哪里添加它們?為什么?

考慮序列到序列問題(例如,機器翻譯),其中輸入序列在整個目標序列預測中始終可用。使用僅解碼器的 Transformer 進行建模的局限性是什么?為什么?

Discussions

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Transformer
    +關注

    關注

    0

    文章

    130

    瀏覽量

    5915
  • pytorch
    +關注

    關注

    2

    文章

    766

    瀏覽量

    12892
收藏 人收藏

    評論

    相關推薦

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    等多種形式和任務。這個階段是從語言模型向對話模型轉變的關鍵,其核心難點在于如何構建訓練數據,包括訓練數據內部多個任務之間的關系、訓練數據與訓練
    發表于 03-11 15:16

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    處理各種自然語言任務時都表現出了驚人的能力。這促使一個新的研究方向誕生——基于Transformer訓練語言模型。這類模型的核心思想是先利用大規模的文本數據
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】大語言模型的訓練

    增長。DeepMind在相關論文中指出,模型大小和訓練Token數應以相似速率增長,以確保最佳性能。因此,構建與模型規模相匹配的訓練數據至關重要。 在構建
    發表于 05-07 17:10

    Pytorch模型訓練實用PDF教程【中文】

    、模型權及損失函數的變化。本教程適用讀者:想熟悉 PyTorch 使用的朋友;想采用 PyTorch 進行模型訓練的朋友;正采用 PyTorch
    發表于 12-21 09:18

    大規模MIMO的性能

    軌跡產生的容量斜坡仍然比需求線平坦。面對此挑戰,3GPP 標準實體近來提出了數據容量“到2020 年增長1000 倍”的目標,以滿足演進性或革命性創意的需要。這種概念要求基站部署極大規模的天線陣
    發表于 07-17 07:54

    怎樣使用PyTorch Hub去加載YOLOv5模型

    PyTorch Hub 加載訓練的 YOLOv5s 模型,model并傳遞圖像進行推理。'yolov5s'是最輕最快的 YOLOv5 型號。有關所有可用模型的詳細信息,請參閱自述文
    發表于 07-22 16:02

    如何向大規模訓練語言模型中融入知識?

    本文關注于向大規模訓練語言模型(如RoBERTa、BERT等)中融入知識。
    的頭像 發表于 06-23 15:07 ?3761次閱讀
    如何向<b class='flag-5'>大規模</b>預<b class='flag-5'>訓練</b>語言模型中融入知識?

    使用NVIDIA DGX SuperPOD訓練SOTA大規模視覺模型

    在這篇文章中,我們展示了在大規模人工智能超級計算機上訓練 SOTA 大規模視覺 transformer 模型(如 VOLO \ u D5 )的主要技術和程序,如基于 NVIDIA DG
    的頭像 發表于 05-30 10:17 ?2032次閱讀
    使用NVIDIA DGX SuperPOD<b class='flag-5'>訓練</b>SOTA<b class='flag-5'>大規模</b>視覺模型

    第一個大規模點云的自監督預訓練MAE算法Voxel-MAE

    Voxel-MAE證明了對大規模點云進行基于掩碼的自監督預訓練學習,來提高無人車的感知性能是可行的。KITTI、nuScenes、Waymo數據集上,SECOND、CenterPoint和PV-RCNN上的充分的實驗證明Voxe
    的頭像 發表于 10-21 16:15 ?3691次閱讀

    PyTorch教程11.9之使用Transformer進行大規模訓練

    電子發燒友網站提供《PyTorch教程11.9之使用Transformer進行大規模訓練.pd
    發表于 06-05 15:07 ?0次下載
    <b class='flag-5'>PyTorch</b>教程<b class='flag-5'>11.9</b>之使用<b class='flag-5'>Transformer</b><b class='flag-5'>進行</b><b class='flag-5'>大規模</b>預<b class='flag-5'>訓練</b>

    PyTorch教程13.5之在多個GPU上進行訓練

    電子發燒友網站提供《PyTorch教程13.5之在多個GPU上進行訓練.pdf》資料免費下載
    發表于 06-05 14:18 ?0次下載
    <b class='flag-5'>PyTorch</b>教程13.5之在多個GPU上<b class='flag-5'>進行</b><b class='flag-5'>訓練</b>

    PyTorch教程之15.2近似訓練

    電子發燒友網站提供《PyTorch教程之15.2近似訓練.pdf》資料免費下載
    發表于 06-05 11:07 ?1次下載
    <b class='flag-5'>PyTorch</b>教程之15.2近似<b class='flag-5'>訓練</b>

    PyTorch教程15.9之預訓練BERT的數據集

    電子發燒友網站提供《PyTorch教程15.9之預訓練BERT的數據集.pdf》資料免費下載
    發表于 06-05 11:06 ?0次下載
    <b class='flag-5'>PyTorch</b>教程15.9之預<b class='flag-5'>訓練</b>BERT的數據集

    PyTorch教程15.10之預訓練BERT

    電子發燒友網站提供《PyTorch教程15.10之預訓練BERT.pdf》資料免費下載
    發表于 06-05 10:53 ?0次下載
    <b class='flag-5'>PyTorch</b>教程15.10之預<b class='flag-5'>訓練</b>BERT

    基于PyTorch的模型并行分布式訓練Megatron解析

    NVIDIA Megatron 是一個基于 PyTorch 的分布式訓練框架,用來訓練超大Transformer語言模型,其通過綜合應用了數據并行,Tensor并行和Pipeline并
    的頭像 發表于 10-23 11:01 ?1294次閱讀
    基于<b class='flag-5'>PyTorch</b>的模型并行分布式<b class='flag-5'>訓練</b>Megatron解析
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>