<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

Transformer模型的多模態學習應用

導讀

隨著Transformer在視覺中的崛起，Transformer在多模態中應用也是合情合理的事情，甚至以后可能會有更多的類似的paper。先來解釋一下什么多模態，模態譯作modality，多模態譯作multimodel。多模態學習主要有一下幾個方向：表征、轉化、對齊、融合和協同學習。人就是生活在一個多模態的世界里面，文字、視覺、語言都是不同的模態，當我們能夠同時從視覺、聽覺、嗅覺等等來識別當前發生的事情，實際上我們就是在做了多模態的融合。而Transformer is All You Need這篇論文（從Attention is All You Need開始大家都成了標題黨，X is All You Need）是屬于協同學習（Co-learning）的范疇，將多個不同的tasks一起訓練，共享模型參數。

背景介紹

這篇論文出自Facebook AI Research，文章提出了UniT，Unified Transformer model，用一個Transformer模型去同時學習多個不同的tasks，甚至這些tasks的領域都可能不同，從目標檢測到語言理解，一共訓練了7個tasks8個datasets，但是各個beachmark上都取得了不錯的成績。Transformer在各種不同的領域中都取得了極大的成功，例如NLP、images、video和audio，不僅在以上領域表現出色，甚至在一些vision-and-language reasoning的tasks上，比如VQA（visual question answering）也有很強的表現。但是現有的一些多模態的模型基本都是關注某一個領域的不同task或者就是用將近N倍的參數去處理N個不同的領域問題。在17年谷歌提出的《One Model To Learn Them All》［1］中也使用了Transformer encoder-decoder的架構，但是不同的是，它對于每個task都需要一個與之對應的decoder，如下圖。類似的還有MT-DNN［2］和VILBERT-MT［3］等等。

UniT： One transformer to learn them all

用單個模型去訓練跨模態的任務，UniT包括對于不同的task對于的encoder，因為不同模態的數據需要經過處理才能放到同一個網絡，就和人獲得不同模態的信息需要不同的器官一樣。然后這些信息會經過一個共享decoder，最后各個task會有對應的簡單的head進行最后的輸出。UniT有兩種不同模態的輸入：圖像和文本。也就是說只需要兩個對應的encoder就可以訓練7種不同的任務，可以形象地比喻這個網絡有兩個不同的器官（Image encoder和Text encoder）。

Image encoder一些視覺相關的task，比如目標檢測、視覺問答等都需要處理圖像，在UniT中，圖像先經過一個卷積的backbone，然后再用transformer對特征進行編碼，進一步得到編碼后的向量。圖像的處理與DETR［4］類似。xv=B（I），xv是經過卷積神經網絡B得到的特征圖，B采用了ResNet-50，并在C5中使用了空洞卷積。再用encoder Ev得到圖像編碼的向量，這里使用encoder進行編碼時為了區別不同的task加入了task embedding以進行區分，和IPT中的作法類似，因為不同的task它可能關注的點不一樣。

Text encoder對于文本的輸入，采用BERT來進行編碼，BERT是一個在大規模語料庫上預訓練好的模型。給定輸入的文本，和BERT處理一樣，先將文本編碼成tokens的序列{w1， · · · ， wS}，和image encoder一樣，還需要加入一個wtask來區分不同的task。在實現中，采用了embedding維度是768，12層的BERT。

Domain-agnostic UniT decoder領域不可知的解碼器，和image和text encoder不一樣的是encoder是針對某一特定領域的，但是encoder的輸入可以是來自與image encoder或者是text encoder，所以是領域不可知。對于純視覺、純文本和視覺文本混合的task，encoder的輸入是不一樣的，純視覺和純文本的task的情況下，decoder的輸入就是它們各自encoder的輸出，但是對于視覺文本的task，decoder的輸入是兩個encoder輸出的拼接，這很好理解，因為需要VQA這種同時會有image和text的輸入。

Task-specific output heads每個task可能最后的輸出差別很大，因此最后使用對應的prediction head來進行最后的預測。對于檢測任務來說，最后decoder產生的每個向量都會produce一個輸出，輸出包括類別和bounding box。當然，對于不同的task，decoder輸入的query是不同的。

Experiments

下圖是所用到的8個不同的數據集以及上面的測試結果，可以看到不同任務的區別還是很大的。

根據下圖的對比，其實UniT有些task離SOTA還是差的有點遠，所以這個領域還是有很大的挖掘的空間的。

Conclusion

在這篇論文中，我們可以看到，Transformer確實是可以來處理不同的領域的，跨領域學習確實是個很大的難題，那么Transformer能否成為多模態領域發展的一個跳板呢？我們拭目以待。

Reference論文鏈接：https://arxiv.org/abs/2102.10772
編輯：lyn

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

視覺

視覺

+關注

關注
1

文章
140

瀏覽量
23698
paper

paper

+關注

關注
0

文章
7

瀏覽量
3565
Transformer

Transformer

+關注

關注
0

文章
130

瀏覽量
5912

原文標題：Facebook提出UniT：Transformer is All You Need

文章出處：【微信號：gh_a204797f977b，微信公眾號：深度學習實戰】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

【大語言模型：原理與工程實踐】大語言模型的基礎技術

Transformer有效避免了CNN中的梯度消失和梯度爆炸問題，同時提高了處理長文本序列的效率。此外，模型編碼器可以運用更多層，以捕獲輸入序列中元素間的深層關系，并學習更全面的上下文向量表示。預訓練語言

發表于 05-05 12:17

一文詳解Transformer神經網絡模型

Transformer模型在強化學習領域的應用主要是應用于策略學習和值函數近似。強化學習是指讓機器在與環境互動的過程中，通過試錯來

發表于 02-20 09:55 ?5501次閱讀

一文詳解<b class='flag-5'>Transformer</b>神經網絡<b class='flag-5'>模型</b>

從Google多模態大模型看后續大模型應該具備哪些能力

前段時間Google推出Gemini多模態大模型，展示了不凡的對話能力和多模態能力，其表現究竟如何呢？

的頭像

發表于 12-28 11:19 ?606次閱讀

從Google多<b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>看后續大<b class='flag-5'>模型</b>應該具備哪些能力

大語言模型背后的Transformer，與CNN和RNN有何不同

? 電子發燒友網報道（文/李彎彎）近年來，隨著大語言模型的不斷出圈，Transformer這一概念也走進了大眾視野。Transformer是一種非常流行的深度學習

的頭像

發表于 12-25 08:36 ?1947次閱讀

大語言<b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>，與CNN和RNN有何不同

大模型+多模態的3種實現方法

我們知道，預訓練LLM已經取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態（包括圖像、語音、視頻模態）的輸入和輸出，那么如何在預訓練LLM的基礎上引入跨模態的信息，讓其變得更強大、更通用呢？本節將介紹“大

的頭像

發表于 12-13 13:55 ?940次閱讀

大<b class='flag-5'>模型</b>+多<b class='flag-5'>模態</b>的3種實現方法

Transformer迎來強勁競爭者新架構Mamba引爆AI圈！

作為通用序列模型的骨干，Mamba 在語言、音頻和基因組學等多種模態中都達到了 SOTA 性能。在語言建模方面，無論是預訓練還是下游評估，他們的 Mamba-3B 模型都優于同等規模的 Tra

發表于 12-07 14:14 ?358次閱讀

關于深度學習模型Transformer模型的具體實現方案

Transformer 本質上是一個 Encoder-Decoder 架構。因此中間部分的 Transformer 可以分為兩個部分：編碼組件和解碼組件。

發表于 11-17 10:34 ?349次閱讀

探究編輯多模態大語言模型的可行性

不同于單模態模型編輯，多模態模型編輯需要考慮更多的模態信息。文章出發點依然從單模態

發表于 11-09 14:53 ?300次閱讀

為什么transformer性能這么好？Transformer的上下文學習能力是哪來的？

為什么 transformer 性能這么好？它給眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來？在人工智能領域里，transformer 已

發表于 09-25 12:05 ?877次閱讀

深度學習模型部署與優化：策略與實踐；L40S與A100、H100的對比分析

深度學習、機器學習、生成式AI、深度神經網絡、抽象學習、Seq2Seq、VAE、GAN、GPT、BERT、預訓練語言模型、Transformer

發表于 09-22 14:13 ?733次閱讀

基于Transformer多模態先導性工作

多模態（Multimodality）是指在信息處理、傳遞和表達中涉及多種不同的感知模態或信息來源。這些感知模態可以包括語言、視覺、聽覺、觸覺等，它們共同作用來傳遞更豐富、更全面的信息。在多模態

發表于 08-21 09:49 ?587次閱讀

transformer模型詳解：Transformer 模型的壓縮方法

?動機&背景 Transformer 模型在各種自然語言任務中取得了顯著的成果，但內存和計算資源的瓶頸阻礙了其實用化部署。低秩近似和結構化剪枝是緩解這一瓶頸的主流方法。然而，作者通過分析發現，結構化

發表于 07-17 10:50 ?1464次閱讀

更強更通用：智源「悟道3.0」Emu多模態大模型開源，在多模態序列中「補全一切」

熱度。Flamingo 具備強大的多模態上下文少樣本學習能力。 Flamingo 走的技術路線是將大語言模型與一個預訓練視覺編碼器結合，并插入可學習的層來捕捉跨

發表于 07-16 20:45 ?437次閱讀

2D Transformer 可以幫助3D表示學習嗎？

預訓練的2D圖像或語言Transformer：作為基礎Transformer模型，具有豐富的特征表示能力。作者選擇了先進的2D Transformer

發表于 07-03 10:59 ?488次閱讀

基于Transformer的大型語言模型（LLM）的內部機制

工作原理變得越來越重要。更好地理解這些模型是如何做出決策的，這對改進模型和減輕其故障（如幻覺或推理錯誤）至關重要。眾所周知，最近 LLM 成功的一個重要因素是它們能夠從上下文中學習和推理。LLM 對這些上下文的

發表于 06-25 15:08 ?1114次閱讀

深度學習實戰
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 用簡潔的語言來闡述YOLO算法
Hot 如何通過計算機視覺去識別車道線

New Transformer模型的多模態學習應用
New 一種可以編碼局部信息的結構T2T module，并證明了T2T的有效性

精選推薦
更多

文章

資料

帖子

采用144核，能效提升66%！英特爾至強6處理器震撼上市，加速數據中心升級

章鷹觀察
17小時前

832 閱讀

如何移植FFmpeg

ElfBoard
2天前

580 閱讀

基于Arm Cortex-CM85內核的RA8D1作為控制器通過MIPI DSI實現LVGL顯示

瑞薩MCU小百科
2天前

810 閱讀

便攜式直流接地故障查找儀如何使用——每日了解電力知識

武漢摩恩
2天前

824 閱讀

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
3天前

819 閱讀

流媒體視頻服務器配置教材

liuxin
2.32 MB

免費

40下載

HarmonyOS java UI的手勢視圖教程

姚小熊27
3.13 MB

免費

3下載

Pandoc文檔格式轉換工具

張國厚
8.20 MB

免費

2下載

Feed SDK下載和過濾Feed文件

李鑫
0.04 MB

免費

0下載

GitDigger為開源項目而生的交流社區

神之小風
0.15 MB

免費

4下載

I.MX6ULL-飛凌 ElfBoard ELF1板卡 - 如何在Ubuntu中編譯OpenCV庫(X86架構）

jf_25331175
3天前

731 閱讀

鴻蒙原生應用元服務開發-設備管理USB服務開發場景與接口

李洋水蛟龍
3天前

305 閱讀

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
3天前

916 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
4天前

1010 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
4天前

1514 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看