搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學(xué)習在線(xiàn)課程
觀(guān)看技術(shù)視頻
寫(xiě)文章/發(fā)帖/加入社區

會(huì )員中心

創(chuàng )作中心

發(fā)布

創(chuàng )作活動(dòng)

完善資料讓更多小伙伴認識你，還能領(lǐng)取20積分哦，立即完善>

3天內不再提示

目標跟蹤新的建模方式

如果模型知道目標在哪，那么我們只需要教模型讀出目標的位置，而不需要顯式地進(jìn)行分類(lèi)、回歸。對于這項工作，研究者們希望可以啟發(fā)人們探索目標跟蹤等視頻任務(wù)的自回歸式序列生成建模。自回歸式的序列生成模型在諸多自然語(yǔ)言處理任務(wù)中一直占據著(zhù)重要地位，特別是最近ChatGPT的出現，讓人們更加驚嘆于這種模型的強大生成能力和潛力。最近，微軟亞洲研究院與大連理工大學(xué)的研究人員提出了一種使用序列生成模型來(lái)完成視覺(jué)目標跟蹤任務(wù)的新框架SeqTrack，來(lái)將跟蹤建模成目標坐標序列的生成任務(wù)。目前的目標跟蹤框架，一般把目標跟蹤拆分為分類(lèi)、回歸、角點(diǎn)預測等多個(gè)子任務(wù)，然后使用多個(gè)定制化的預測頭和損失函數來(lái)完成這些任務(wù)。而SeqTrack通過(guò)將跟蹤建模成單純的序列生成任務(wù)，不僅擺脫了冗余的預測頭和損失函數，也在多個(gè)數據集上取得了優(yōu)秀的性能。

1.新的目標跟蹤框架，將跟蹤建模為序列生成任務(wù)，一個(gè)簡(jiǎn)潔而有效的新基線(xiàn)；

2.摒棄冗余的預測頭和損失函數，僅使用樸素的Transformer和交叉熵損失，具有較高的可擴展性。

一、研究動(dòng)機

現在比較先進(jìn)的目標跟蹤方法采用了“分而治之”的策略，即將跟蹤問(wèn)題解耦成多個(gè)子任務(wù)，例如中心點(diǎn)預測、前景/背景二分類(lèi)、邊界框回歸、角點(diǎn)預測等。盡管在各個(gè)跟蹤數據機上取得了優(yōu)秀的性能，但這種“分而治之”的策略存在以下兩個(gè)缺點(diǎn)：

1、模型復雜：每個(gè)子任務(wù)都需要一個(gè)定制化的預測頭，導致框架變得復雜，不利于擴展

2、損失函數冗余：每個(gè)預測頭需要一個(gè)或多個(gè)損失函數，引入額外超參數，使訓練困難

圖1 目前常見(jiàn)的跟蹤框架

研究者認為，如果模型知道目標在圖像中的位置，那么只需要簡(jiǎn)單地教模型讀出目標邊界框即可，不需要用“分而治之”的策略去顯式地進(jìn)行分類(lèi)和回歸等。為此，作者采用了自回歸式的序列生成建模來(lái)解決目標跟蹤任務(wù)，教模型把目標的位置作為一句話(huà)去“讀”出來(lái)。

圖2 跟蹤的序列生成建模

二、方法概覽

研究者將目標邊界框的四個(gè)坐標轉化為由離散值token組成的序列，然后訓練SeqTrack模型逐個(gè)token地預測出這個(gè)序列。在模型結構上，SeqTrack采用了原汁原味的encoder-decoder形式的transformer，方法整體框架圖如下圖3所示：

圖3 SeqTrack結構圖

Encoder提取模板與搜索區域圖片的視覺(jué)特征，decoder參考這些視覺(jué)特征，完成序列的生成。序列包含構成邊界框的 x,y,w,h token，以及兩個(gè)特殊的 start 和 end token，分別表示生成的開(kāi)始與結束。在推理時(shí)，start token告知模型開(kāi)始生成序列，然后模型依次生成 x,y,w,h ，每個(gè)token的生成都會(huì )參考前序已生成好的token，例如，生成 w 時(shí)，模型會(huì )以 [start, x, y] 作為輸入。當 [x,y,w,h] 生成完，模型會(huì )輸出end token，告知用戶(hù)預測完成。為了保證訓練的高效，訓練時(shí)token的生成是并行的，即 [start, x,y,w,h] 被同時(shí)輸入給模型，模型同時(shí)預測出 [x,y,w,h, end] 。為了保證推理時(shí)的自回歸性質(zhì)，在訓練時(shí)對decoder中的自注意力層中添加了因果性的attention mask，以保證每個(gè)token的預測僅取決于它前序的token，attention mask如下圖4所示。

圖3 Attention mask，第 i 行第 j 列的橘色格子代表第生成第 i 個(gè)輸出token時(shí)，允許觀(guān)察到第 j 個(gè)輸入token，而白色格子代表不可觀(guān)察。

圖像上連續的坐標值被均勻地離散化為了[1, 4000]中的整數。每個(gè)整數可以被視為一個(gè)單詞，構成了單詞表 V ，x,y,w,h 四個(gè)坐標從單詞表 V 中取值。

與常見(jiàn)的序列模型類(lèi)似，在訓練時(shí)，SeqTrack使用交叉熵損失來(lái)最大化目標值基于前序token的預測值、搜索區域、模板三者的條件概率：

在推理時(shí)，使用最大似然從單詞表 V 中為每個(gè)token取值：

通過(guò)這種方式，僅需要交叉熵損失即可完成模型的訓練，大大簡(jiǎn)化了復雜度。除此之外，研究者們還設計了合適的方式，在不影響模型與損失函數的情況下，引入了在線(xiàn)模板更新、窗口懲罰等技術(shù)來(lái)集成跟蹤的先驗知識，這里不再贅述，具體細節請參考論文。

三、實(shí)驗結果

研究者開(kāi)發(fā)了四種不同大小的模型，以取得性能與速度之間的平衡，并在8個(gè)跟蹤數據集上驗證了這些模型的性能。

表1 SeqTrack模型參數

如下表2所示，在大尺度數據集LaSOT, LaSOText，TrackingNet, GOT-10k上，SeqTrack取得了優(yōu)秀的性能。例如，與同樣使用ViT-B和256輸入圖片分辨率的OSTrack-256相比，SeqTrack-B256在四個(gè)數據集上都取得了更好的結果。

表2大規模數據集性能

如表3所示，SeqTrack在包含多種不常見(jiàn)目標類(lèi)別的TNL2K數據集上取得了領(lǐng)先的性能，驗證了SeqTrack的泛化性。在小規模數據集NFS和UAV123上也都取得了具有競爭力的性能。

表3額外數據集性能

圖4所示，在VOT競賽數據集上，分別使用邊界框測試和分割掩膜測試，SeqTrack都取得了優(yōu)秀的性能。

圖4 VOT2020性能

這樣簡(jiǎn)單的框架具有良好的可擴展性，只需要將信息引入到序列構建中，而無(wú)需更改網(wǎng)絡(luò )結構。例如，研究者們進(jìn)行了額外的實(shí)驗來(lái)嘗試在序列中引入時(shí)序信息。具體來(lái)說(shuō)，將輸入序列擴展到多幀，包含了目標邊界框的歷史值。表4顯示這樣的簡(jiǎn)單擴展提升了基線(xiàn)模型的性能。

圖5 時(shí)序序列示意圖

表4 時(shí)序序列結果

四、結語(yǔ)

本文提出了目標跟蹤的新的建模方式：序列生成式建模。它將目標跟蹤建模為了序列生成任務(wù)，僅使用簡(jiǎn)單的Transformer結構和交叉熵損失，簡(jiǎn)化了跟蹤框架。大量實(shí)驗表明了序列生成建模的優(yōu)秀性能和潛力。在文章的最后，研究者希望通過(guò)本文給視覺(jué)目標跟蹤和其他視頻任務(wù)的序列建模提供靈感。在未來(lái)工作，研究者將嘗試進(jìn)一步融合時(shí)序信息，以及擴展到多模態(tài)任務(wù)。

審核編輯：彭靜

聲明：本文內容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權轉載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習之用，如有內容侵權或者其他違規問(wèn)題，請聯(lián)系本站處理。舉報投訴

建模

建模

+關(guān)注

關(guān)注
1

文章
284

瀏覽量
60553
函數

函數

+關(guān)注

關(guān)注
3

文章
4117

瀏覽量
61510
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
130

瀏覽量
5915

原文標題：CVPR 2023 | 大連理工和微軟提出SeqTrack：目標跟蹤新框架

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉載請注明出處。

評論

相關(guān)推薦

什么是主動(dòng)視覺(jué)跟蹤？讓目標與跟蹤器“斗起來(lái)”

對于主動(dòng)視覺(jué)跟蹤的訓練問(wèn)題，不僅僅前背景物體外觀(guān)的多樣性，目標運動(dòng)軌跡的復雜程度也將直接影響跟蹤器的泛化能力?？梢钥紤]一種極端的情況：如果訓練時(shí)目標只往前走，那么

的頭像

發(fā)表于 02-20 09:13 ?8194次閱讀

基于labview的目標跟蹤

如何用labview編程實(shí)現目標框選跟蹤，camshift算法？請高手們幫幫忙，急求

發(fā)表于 03-18 10:47

視頻跟蹤（目標取差器）-基于DM8168實(shí)現的自動(dòng)視頻跟蹤

、運動(dòng)方向等自動(dòng)獲取目標。[td]跟蹤算法質(zhì)心跟蹤算法：這種跟蹤方式用于跟蹤有界

發(fā)表于 09-05 11:14

視頻跟蹤目標跟蹤算法簡(jiǎn)介（上海凱視力成信息科技有限...

。www.casevision.net質(zhì)心跟蹤算法（Centroid）這種跟蹤方式用于跟蹤有界目標如飛機，

發(fā)表于 09-29 08:59

labview求目標跟蹤程序

求大神指導Labview目標跟蹤

發(fā)表于 11-27 13:34

基于OPENCV的運動(dòng)目標跟蹤實(shí)現

CAMSHIFT算法是一種基于顏色直方圖的目標跟蹤算法。在視頻跟蹤過(guò)程中，CAMSHIFT算法利用選定目標的顏色直方圖模型得到每幀圖像的顏色投影圖，并根據上一幀

發(fā)表于 12-23 14:21

無(wú)人機編隊視頻序列中的多目標精確跟蹤

無(wú)人機編隊視頻序列中的多目標精確跟蹤:：針對無(wú)人機編隊視頻序列中的多目標精確跟蹤的要求，使用ＳＴＫ（ｓａｔｅｌｌｉｔｅｔｏｏｌｋｉｔ）三維建模

發(fā)表于 03-18 16:21 ?19次下載

基于強跟蹤UKF的室內目標跟蹤_張英坤

基于強跟蹤UKF的室內目標跟蹤_張英坤

發(fā)表于 01-12 19:56 ?1次下載

基于張量投票在目標跟蹤中的應用

目標跟蹤是在一段視頻序列中定位感興趣的運動(dòng)目標，并形成目標運動(dòng)的路徑或軌跡。作為計算機視覺(jué)領(lǐng)域中視頻分析的基本內容之一，目標

發(fā)表于 12-11 17:24 ?0次下載

基于多尺度自適應權重的目標跟蹤算法

遮擋、目標外觀(guān)劇烈變化等，往往會(huì )丟失目標。文中分析原算法跟蹤原理得到了產(chǎn)生目標跟蹤丟失的原因?；贏(yíng)SLA算法，提出了3點(diǎn)改進(jìn)方法：1）適應

發(fā)表于 06-16 15:32 ?7次下載

視頻目標跟蹤分析

視頻目標跟蹤要求在已知第一幀感興趣物體的位置和尺度信息的情況下，對該目標在后續視頻幀中進(jìn)行持續的定位和尺度估計Ｗ。廣義的目標跟蹤通常包含單

發(fā)表于 07-05 11:24 ?1237次閱讀

在MATLAB/simulink中建模時(shí)的兩種不同實(shí)現方式

導讀：本期文章主要介紹在MATLAB/simulink中建模時(shí)的兩種不同實(shí)現方式，一種是直接用現成的文件庫中的模塊進(jìn)行搭建，一種是用Sfunction代碼實(shí)現。接下來(lái)以電壓型磁鏈觀(guān)測器為建模目

發(fā)表于 09-15 10:07 ?1583次閱讀

MATLAB/simulink中兩種實(shí)現建模方式的優(yōu)勢

導讀：本期文章主要介紹在MATLAB/simulink中建模時(shí)的兩種不同實(shí)現方式，一種是直接用現成的文件庫中的模塊進(jìn)行搭建，一種是用Sfunction代碼實(shí)現。接下來(lái)以電壓型磁鏈觀(guān)測器為建模目

發(fā)表于 09-15 10:10 ?4535次閱讀

利用TRansformer進(jìn)行端到端的目標檢測及跟蹤

多目標跟蹤(MOT)任務(wù)的關(guān)鍵挑戰是跟蹤目標下的時(shí)間建模?，F存的用檢測跟蹤的方法采用簡(jiǎn)單的heu

發(fā)表于 04-18 09:12 ?739次閱讀

SystemVerilog的覆蓋率建模方式

為了確保驗證的完備性，我們需要量化驗證目標。SystemVerilog提供了一套豐富的覆蓋率建模方式。

發(fā)表于 06-25 10:44 ?697次閱讀

CVer
專(zhuān)欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁(yè)

Hot DepGraph：任意架構的結構化剪枝，CNN、Transformer、GNN等都適用！
Hot DDFM：首個(gè)使用擴散模型進(jìn)行多模態(tài)圖像融合的方法

New Vision Mamba：速度與內存的雙重突破
New Adobe提出DMV3D：3D生成只需30秒！讓文本、圖像都動(dòng)起來(lái)的新方法！

精選推薦
更多

文章

資料

帖子

瑞薩雙通道同步升壓控制器ISL81805調試經(jīng)驗分享及總結

駿龍電子
5小時(shí)前

297 閱讀

RL78/F24 CANFD參考例程

瑞薩MCU小百科
9小時(shí)前

242 閱讀

如何移植libwebsockets

ElfBoard
10小時(shí)前

304 閱讀

使用理想二極管控制器的汽車(chē)應用冗余電源拓撲

德州儀器
13小時(shí)前

372 閱讀

電力電子中的電大、電小尺寸？

英飛凌工業(yè)半導體
2天前

263 閱讀

諾基亞6270電路圖 nokia 原理圖

王蘭
555

10積分

160下載

漫畫(huà)電子電路（日）——激發(fā)學(xué)習興趣

陶瓷肥貓
38.8 MB

免費

0下載

Needle iOS安全測試框架

五斤麻辣油
0.73 MB

2積分

1下載

GitDiffMargin Visual Studio擴展

王莉
0.15 MB

2積分

3下載

program_bulter軟件升級管理中心

莫聯(lián)雪
0.82 MB

2積分

2下載

FPGA 高級設計：時(shí)序分析和收斂

FPGA技術(shù)江湖
1天前

111 閱讀

為什么我的電源會(huì )出現振鈴和過(guò)熱？

久醉不醒
1天前

227 閱讀

無(wú)線(xiàn)鼠標主板，可以自己照著(zhù)做嗎？

angel725
2天前

490 閱讀

【Vision Board創(chuàng )客營(yíng)連載體驗】基于Vision Board的垃圾分類(lèi)

大菠蘿Alpha
2天前

251 閱讀

【Vision Board創(chuàng )客營(yíng)連載體驗】使用 Vision Board 做一個(gè) UVC Camera

ouxiaolong
3天前

241 閱讀

推薦專(zhuān)欄
更多

華秋（原“華強聚豐”）：

電子發(fā)燒友

華秋開(kāi)發(fā)

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網(wǎng)站地圖

設計技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測量?jì)x表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無(wú)線(xiàn)

接口/總線(xiàn)/驅動(dòng)

處理器/DSP

EDA/IC設計

存儲技術(shù)

光電顯示

EMC/EMI設計

連接器

行業(yè)應用

LEDs

汽車(chē)電子

音視頻及家電

通信網(wǎng)絡(luò )

醫療電子

人工智能

虛擬現實(shí)

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動(dòng)通信

工業(yè)控制

便攜設備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區塊鏈

新科技

特色內容

專(zhuān)欄推薦

學(xué)院

設計資源

設計技術(shù)

電子百科

電子視頻

元器件知識

工具箱

VIP會(huì )員

最新技術(shù)文章

社區

小組

論壇

問(wèn)答

評測試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應鏈服務(wù)

硬件開(kāi)發(fā)

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務(wù)

網(wǎng)站廣告

在線(xiàn)研討會(huì )

活動(dòng)策劃

新聞發(fā)布

新品發(fā)布

小測驗

設計大賽

華秋

關(guān)于我們

投資關(guān)系

新聞動(dòng)態(tài)

加入我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡(luò )

微博

移動(dòng)端

發(fā)燒友APP

硬聲APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務(wù) PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關(guān)注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀(guān)察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡(jiǎn)介

企業(yè)動(dòng)態(tài)

聯(lián)系我們

企業(yè)文化

企業(yè)宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證：合字B2-20210191 工商網(wǎng)監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看