<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Transformer模型的多模態學習應用

深度學習實戰 ? 來源:CSDN技術社區 ? 作者:Facebook Amusi ? 2021-03-25 09:29 ? 次閱讀

導讀

隨著Transformer在視覺中的崛起,Transformer在多模態中應用也是合情合理的事情,甚至以后可能會有更多的類似的paper。先來解釋一下什么多模態,模態譯作modality,多模態譯作multimodel。多模態學習主要有一下幾個方向:表征、轉化、對齊、融合和協同學習。人就是生活在一個多模態的世界里面,文字、視覺、語言都是不同的模態,當我們能夠同時從視覺、聽覺、嗅覺等等來識別當前發生的事情,實際上我們就是在做了多模態的融合。而Transformer is All You Need這篇論文(從Attention is All You Need開始大家都成了標題黨,X is All You Need)是屬于協同學習(Co-learning)的范疇,將多個不同的tasks一起訓練,共享模型參數。

689857c6-8d02-11eb-8b86-12bb97331649.png

68f430be-8d02-11eb-8b86-12bb97331649.png

背景介紹

這篇論文出自Facebook AI Research,文章提出了UniT,Unified Transformer model,用一個Transformer模型去同時學習多個不同的tasks,甚至這些tasks的領域都可能不同,從目標檢測到語言理解,一共訓練了7個tasks8個datasets,但是各個beachmark上都取得了不錯的成績。Transformer在各種不同的領域中都取得了極大的成功,例如NLP、images、video和audio,不僅在以上領域表現出色,甚至在一些vision-and-language reasoning的tasks上,比如VQA(visual question answering)也有很強的表現。但是現有的一些多模態的模型基本都是關注某一個領域的不同task或者就是用將近N倍的參數去處理N個不同的領域問題。在17年谷歌提出的《One Model To Learn Them All》[1]中也使用了Transformer encoder-decoder的架構,但是不同的是,它對于每個task都需要一個與之對應的decoder,如下圖。類似的還有MT-DNN[2]和VILBERT-MT[3]等等。

6b1f8bcc-8d02-11eb-8b86-12bb97331649.png

UniT: One transformer to learn them all

用單個模型去訓練跨模態的任務,UniT包括對于不同的task對于的encoder,因為不同模態的數據需要經過處理才能放到同一個網絡,就和人獲得不同模態的信息需要不同的器官一樣。然后這些信息會經過一個共享decoder,最后各個task會有對應的簡單的head進行最后的輸出。UniT有兩種不同模態的輸入:圖像和文本。也就是說只需要兩個對應的encoder就可以訓練7種不同的任務,可以形象地比喻這個網絡有兩個不同的器官(Image encoder和Text encoder)。

6b497054-8d02-11eb-8b86-12bb97331649.png

Image encoder一些視覺相關的task,比如目標檢測、視覺問答等都需要處理圖像,在UniT中,圖像先經過一個卷積的backbone,然后再用transformer對特征進行編碼,進一步得到編碼后的向量。圖像的處理與DETR[4]類似。xv=B(I),xv是經過卷積神經網絡B得到的特征圖,B采用了ResNet-50,并在C5中使用了空洞卷積。再用encoder Ev得到圖像編碼的向量,這里使用encoder進行編碼時為了區別不同的task加入了task embedding以進行區分,和IPT中的作法類似,因為不同的task它可能關注的點不一樣。

Text encoder對于文本的輸入,采用BERT來進行編碼,BERT是一個在大規模語料庫上預訓練好的模型。給定輸入的文本,和BERT處理一樣,先將文本編碼成tokens的序列{w1, · · · , wS},和image encoder一樣,還需要加入一個wtask來區分不同的task。在實現中,采用了embedding維度是768,12層的BERT。

6c806e8c-8d02-11eb-8b86-12bb97331649.png

Domain-agnostic UniT decoder領域不可知的解碼器,和image和text encoder不一樣的是encoder是針對某一特定領域的,但是encoder的輸入可以是來自與image encoder或者是text encoder,所以是領域不可知。對于純視覺、純文本和視覺文本混合的task,encoder的輸入是不一樣的,純視覺和純文本的task的情況下,decoder的輸入就是它們各自encoder的輸出,但是對于視覺文本的task,decoder的輸入是兩個encoder輸出的拼接,這很好理解,因為需要VQA這種同時會有image和text的輸入。

Task-specific output heads每個task可能最后的輸出差別很大,因此最后使用對應的prediction head來進行最后的預測。對于檢測任務來說,最后decoder產生的每個向量都會produce一個輸出,輸出包括類別和bounding box。當然,對于不同的task,decoder輸入的query是不同的。

6cc738da-8d02-11eb-8b86-12bb97331649.png

Experiments

下圖是所用到的8個不同的數據集以及上面的測試結果,可以看到不同任務的區別還是很大的。

根據下圖的對比,其實UniT有些task離SOTA還是差的有點遠,所以這個領域還是有很大的挖掘的空間的。

6d69c3d4-8d02-11eb-8b86-12bb97331649.png

Conclusion

在這篇論文中,我們可以看到,Transformer確實是可以來處理不同的領域的,跨領域學習確實是個很大的難題,那么Transformer能否成為多模態領域發展的一個跳板呢?我們拭目以待。

Reference論文鏈接:https://arxiv.org/abs/2102.10772
編輯:lyn

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 視覺
    +關注

    關注

    1

    文章

    140

    瀏覽量

    23698
  • paper
    +關注

    關注

    0

    文章

    7

    瀏覽量

    3565
  • Transformer
    +關注

    關注

    0

    文章

    130

    瀏覽量

    5912

原文標題:Facebook提出UniT:Transformer is All You Need

文章出處:【微信號:gh_a204797f977b,微信公眾號:深度學習實戰】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    Transformer有效避免了CNN中的梯度消失和梯度爆炸問題,同時提高了處理長文本序列的效率。此外,模型編碼器可以運用更多層,以捕獲輸入序列中元素間的深層關系,并學習更全面的上下文向量表示。 預訓練語言
    發表于 05-05 12:17

    一文詳解Transformer神經網絡模型

    Transformer模型在強化學習領域的應用主要是應用于策略學習和值函數近似。強化學習是指讓機器在與環境互動的過程中,通過試錯來
    發表于 02-20 09:55 ?5501次閱讀
    一文詳解<b class='flag-5'>Transformer</b>神經網絡<b class='flag-5'>模型</b>

    從Google多模態模型看后續大模型應該具備哪些能力

    前段時間Google推出Gemini多模態模型,展示了不凡的對話能力和多模態能力,其表現究竟如何呢?
    的頭像 發表于 12-28 11:19 ?606次閱讀
    從Google多<b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>看后續大<b class='flag-5'>模型</b>應該具備哪些能力

    大語言模型背后的Transformer,與CNN和RNN有何不同

    ? 電子發燒友網報道(文/李彎彎)近年來,隨著大語言模型的不斷出圈,Transformer這一概念也走進了大眾視野。Transformer是一種非常流行的深度學習
    的頭像 發表于 12-25 08:36 ?1947次閱讀
    大語言<b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>,與CNN和RNN有何不同

    模型+多模態的3種實現方法

    我們知道,預訓練LLM已經取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(包括圖像、語音、視頻模態)的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態的信息,讓其變得更強大、更通用呢?本節將介紹“大
    的頭像 發表于 12-13 13:55 ?940次閱讀
    大<b class='flag-5'>模型</b>+多<b class='flag-5'>模態</b>的3種實現方法

    Transformer迎來強勁競爭者 新架構Mamba引爆AI圈!

    作為通用序列模型的骨干,Mamba 在語言、音頻和基因組學等多種模態中都達到了 SOTA 性能。在語言建模方面,無論是預訓練還是下游評估,他們的 Mamba-3B 模型都優于同等規模的 Tra
    發表于 12-07 14:14 ?358次閱讀
    <b class='flag-5'>Transformer</b>迎來強勁競爭者 新架構Mamba引爆AI圈!

    關于深度學習模型Transformer模型的具體實現方案

    Transformer 本質上是一個 Encoder-Decoder 架構。因此中間部分的 Transformer 可以分為兩個部分:編碼組件和解碼組件。
    發表于 11-17 10:34 ?349次閱讀
    關于深度<b class='flag-5'>學習</b><b class='flag-5'>模型</b><b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的具體實現方案

    探究編輯多模態大語言模型的可行性

    不同于單模態模型編輯,多模態模型編輯需要考慮更多的模態信息。文章出發點依然從單模態
    發表于 11-09 14:53 ?300次閱讀
    探究編輯多<b class='flag-5'>模態</b>大語言<b class='flag-5'>模型</b>的可行性

    為什么transformer性能這么好?Transformer的上下文學習能力是哪來的?

    為什么 transformer 性能這么好?它給眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來?在人工智能領域里,transformer
    的頭像 發表于 09-25 12:05 ?877次閱讀
    為什么<b class='flag-5'>transformer</b>性能這么好?<b class='flag-5'>Transformer</b>的上下文<b class='flag-5'>學習</b>能力是哪來的?

    深度學習模型部署與優化:策略與實踐;L40S與A100、H100的對比分析

    深度學習、機器學習、生成式AI、深度神經網絡、抽象學習、Seq2Seq、VAE、GAN、GPT、BERT、預訓練語言模型、Transformer
    的頭像 發表于 09-22 14:13 ?733次閱讀
    深度<b class='flag-5'>學習</b><b class='flag-5'>模型</b>部署與優化:策略與實踐;L40S與A100、H100的對比分析

    基于Transformer模態先導性工作

    模態(Multimodality)是指在信息處理、傳遞和表達中涉及多種不同的感知模態或信息來源。這些感知模態可以包括語言、視覺、聽覺、觸覺等,它們共同作用來傳遞更豐富、更全面的信息。在多模態
    的頭像 發表于 08-21 09:49 ?587次閱讀
    基于<b class='flag-5'>Transformer</b>多<b class='flag-5'>模態</b>先導性工作

    transformer模型詳解:Transformer 模型的壓縮方法

    ?動機&背景 Transformer 模型在各種自然語言任務中取得了顯著的成果,但內存和計算資源的瓶頸阻礙了其實用化部署。低秩近似和結構化剪枝是緩解這一瓶頸的主流方法。然而,作者通過分析發現,結構化
    的頭像 發表于 07-17 10:50 ?1464次閱讀
    <b class='flag-5'>transformer</b><b class='flag-5'>模型</b>詳解:<b class='flag-5'>Transformer</b> <b class='flag-5'>模型</b>的壓縮方法

    更強更通用:智源「悟道3.0」Emu多模態模型開源,在多模態序列中「補全一切」

    熱度。Flamingo 具備強大的多模態上下文少樣本學習能力。 Flamingo 走的技術路線是將大語言模型與一個預訓練視覺編碼器結合,并插入可學習的層來捕捉跨
    的頭像 發表于 07-16 20:45 ?437次閱讀
    更強更通用:智源「悟道3.0」Emu多<b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>開源,在多<b class='flag-5'>模態</b>序列中「補全一切」

    2D Transformer 可以幫助3D表示學習嗎?

    預訓練的2D圖像或語言Transformer:作為基礎Transformer模型,具有豐富的特征表示能力。作者選擇了先進的2D Transformer
    的頭像 發表于 07-03 10:59 ?488次閱讀
    2D <b class='flag-5'>Transformer</b> 可以幫助3D表示<b class='flag-5'>學習</b>嗎?

    基于Transformer的大型語言模型(LLM)的內部機制

    工作原理變得越來越重要。更好地理解這些模型是如何做出決策的,這對改進模型和減輕其故障(如幻覺或推理錯誤)至關重要。 眾所周知,最近 LLM 成功的一個重要因素是它們能夠從上下文中學習和推理。LLM 對這些上下文的
    的頭像 發表于 06-25 15:08 ?1114次閱讀
    基于<b class='flag-5'>Transformer</b>的大型語言<b class='flag-5'>模型</b>(LLM)的內部機制
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>