0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區
會(huì )員中心
創(chuàng )作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內不再提示

目標跟蹤新的建模方式

CVer ? 來(lái)源:CVer ? 2023-05-16 16:00 ? 次閱讀

如果模型知道目標在哪,那么我們只需要教模型讀出目標的位置,而不需要顯式地進(jìn)行分類(lèi)、回歸。對于這項工作,研究者們希望可以啟發(fā)人們探索目標跟蹤等視頻任務(wù)的自回歸式序列生成建模。 自回歸式的序列生成模型在諸多自然語(yǔ)言處理任務(wù)中一直占據著(zhù)重要地位,特別是最近ChatGPT的出現,讓人們更加驚嘆于這種模型的強大生成能力和潛力。 最近,微軟亞洲研究院與大連理工大學(xué)的研究人員提出了一種使用序列生成模型來(lái)完成視覺(jué)目標跟蹤任務(wù)的新框架SeqTrack,來(lái)將跟蹤建模成目標坐標序列的生成任務(wù)。目前的目標跟蹤框架,一般把目標跟蹤拆分為分類(lèi)、回歸、角點(diǎn)預測等多個(gè)子任務(wù),然后使用多個(gè)定制化的預測頭和損失函數來(lái)完成這些任務(wù)。而SeqTrack通過(guò)將跟蹤建模成單純的序列生成任務(wù),不僅擺脫了冗余的預測頭和損失函數,也在多個(gè)數據集上取得了優(yōu)秀的性能。

1.新的目標跟蹤框架,將跟蹤建模為序列生成任務(wù),一個(gè)簡(jiǎn)潔而有效的新基線(xiàn);

2.摒棄冗余的預測頭和損失函數,僅使用樸素的Transformer和交叉熵損失,具有較高的可擴展性。

一 、研究動(dòng)機

現在比較先進(jìn)的目標跟蹤方法采用了“分而治之”的策略,即將跟蹤問(wèn)題解耦成多個(gè)子任務(wù),例如中心點(diǎn)預測、前景/背景二分類(lèi)、邊界框回歸、角點(diǎn)預測等。盡管在各個(gè)跟蹤數據機上取得了優(yōu)秀的性能,但這種“分而治之”的策略存在以下兩個(gè)缺點(diǎn):

1、模型復雜:每個(gè)子任務(wù)都需要一個(gè)定制化的預測頭,導致框架變得復雜,不利于擴展

2、損失函數冗余:每個(gè)預測頭需要一個(gè)或多個(gè)損失函數,引入額外超參數,使訓練困難

9fdef7d2-f3ba-11ed-90ce-dac502259ad0.png

圖1 目前常見(jiàn)的跟蹤框架

研究者認為,如果模型知道目標在圖像中的位置,那么只需要簡(jiǎn)單地教模型讀出目標邊界框即可,不需要用“分而治之”的策略去顯式地進(jìn)行分類(lèi)和回歸等。為此,作者采用了自回歸式的序列生成建模來(lái)解決目標跟蹤任務(wù),教模型把目標的位置作為一句話(huà)去“讀”出來(lái)。

9ffce198-f3ba-11ed-90ce-dac502259ad0.gif

圖2 跟蹤的序列生成建模

二、方法概覽

研究者將目標邊界框的四個(gè)坐標轉化為由離散值token組成的序列,然后訓練SeqTrack模型逐個(gè)token地預測出這個(gè)序列。在模型結構上,SeqTrack采用了原汁原味的encoder-decoder形式的transformer,方法整體框架圖如下圖3所示:

a005dcf8-f3ba-11ed-90ce-dac502259ad0.png

圖3 SeqTrack結構圖

Encoder提取模板與搜索區域圖片的視覺(jué)特征,decoder參考這些視覺(jué)特征,完成序列的生成。序列包含構成邊界框的 x,y,w,h token,以及兩個(gè)特殊的 start 和 end token,分別表示生成的開(kāi)始與結束。 在推理時(shí),start token告知模型開(kāi)始生成序列,然后模型依次生成 x,y,w,h ,每個(gè)token的生成都會(huì )參考前序已生成好的token,例如,生成 w 時(shí),模型會(huì )以 [start, x, y] 作為輸入。當 [x,y,w,h] 生成完,模型會(huì )輸出end token,告知用戶(hù)預測完成。 為了保證訓練的高效,訓練時(shí)token的生成是并行的,即 [start, x,y,w,h] 被同時(shí)輸入給模型,模型同時(shí)預測出 [x,y,w,h, end] 。為了保證推理時(shí)的自回歸性質(zhì),在訓練時(shí)對decoder中的自注意力層中添加了因果性的attention mask,以保證每個(gè)token的預測僅取決于它前序的token,attention mask如下圖4所示。

a0285724-f3ba-11ed-90ce-dac502259ad0.png

圖3 Attention mask,第 i 行第 j 列的橘色格子代表第生成第 i 個(gè)輸出token時(shí),允許觀(guān)察到第 j 個(gè)輸入token,而白色格子代表不可觀(guān)察。

圖像上連續的坐標值被均勻地離散化為了[1, 4000]中的整數。每個(gè)整數可以被視為一個(gè)單詞,構成了單詞表 V ,x,y,w,h 四個(gè)坐標從單詞表 V 中取值。

與常見(jiàn)的序列模型類(lèi)似,在訓練時(shí),SeqTrack使用交叉熵損失來(lái)最大化目標值基于前序token的預測值、搜索區域、模板三者的條件概率:

a0313600-f3ba-11ed-90ce-dac502259ad0.png

在推理時(shí),使用最大似然從單詞表 V 中為每個(gè)token取值:

a04bcf24-f3ba-11ed-90ce-dac502259ad0.png

通過(guò)這種方式,僅需要交叉熵損失即可完成模型的訓練,大大簡(jiǎn)化了復雜度。 除此之外,研究者們還設計了合適的方式,在不影響模型與損失函數的情況下,引入了在線(xiàn)模板更新、窗口懲罰等技術(shù)來(lái)集成跟蹤的先驗知識,這里不再贅述,具體細節請參考論文。

三、實(shí)驗結果

研究者開(kāi)發(fā)了四種不同大小的模型,以取得性能與速度之間的平衡,并在8個(gè)跟蹤數據集上驗證了這些模型的性能。

a0561dee-f3ba-11ed-90ce-dac502259ad0.png

表1 SeqTrack模型參數

如下表2所示,在大尺度數據集LaSOT, LaSOText,TrackingNet, GOT-10k上,SeqTrack取得了優(yōu)秀的性能。例如,與同樣使用ViT-B和256輸入圖片分辨率的OSTrack-256相比,SeqTrack-B256在四個(gè)數據集上都取得了更好的結果。

a08569a0-f3ba-11ed-90ce-dac502259ad0.png

表2大規模數據集性能

如表3所示,SeqTrack在包含多種不常見(jiàn)目標類(lèi)別的TNL2K數據集上取得了領(lǐng)先的性能,驗證了SeqTrack的泛化性。在小規模數據集NFS和UAV123上也都取得了具有競爭力的性能。

a08f5618-f3ba-11ed-90ce-dac502259ad0.png

表3額外數據集性能

圖4所示,在VOT競賽數據集上,分別使用邊界框測試和分割掩膜測試,SeqTrack都取得了優(yōu)秀的性能。

a0aa5e68-f3ba-11ed-90ce-dac502259ad0.png

圖4 VOT2020性能

這樣簡(jiǎn)單的框架具有良好的可擴展性,只需要將信息引入到序列構建中,而無(wú)需更改網(wǎng)絡(luò )結構。例如,研究者們進(jìn)行了額外的實(shí)驗來(lái)嘗試在序列中引入時(shí)序信息。具體來(lái)說(shuō),將輸入序列擴展到多幀,包含了目標邊界框的歷史值。表4顯示這樣的簡(jiǎn)單擴展提升了基線(xiàn)模型的性能。

a0b39c6c-f3ba-11ed-90ce-dac502259ad0.png

圖5 時(shí)序序列示意圖

a0e8d896-f3ba-11ed-90ce-dac502259ad0.png

表4 時(shí)序序列結果

四、結語(yǔ)

本文提出了目標跟蹤的新的建模方式:序列生成式建模。它將目標跟蹤建模為了序列生成任務(wù),僅使用簡(jiǎn)單的Transformer結構和交叉熵損失,簡(jiǎn)化了跟蹤框架。大量實(shí)驗表明了序列生成建模的優(yōu)秀性能和潛力。在文章的最后,研究者希望通過(guò)本文給視覺(jué)目標跟蹤和其他視頻任務(wù)的序列建模提供靈感。在未來(lái)工作,研究者將嘗試進(jìn)一步融合時(shí)序信息,以及擴展到多模態(tài)任務(wù)。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權轉載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習之用,如有內容侵權或者其他違規問(wèn)題,請聯(lián)系本站處理。 舉報投訴
  • 建模
    +關(guān)注

    關(guān)注

    1

    文章

    284

    瀏覽量

    60553
  • 函數
    +關(guān)注

    關(guān)注

    3

    文章

    4117

    瀏覽量

    61510
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    130

    瀏覽量

    5915

原文標題:CVPR 2023 | 大連理工和微軟提出SeqTrack:目標跟蹤新框架

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    什么是主動(dòng)視覺(jué)跟蹤?讓目標跟蹤器“斗起來(lái)”

    對于主動(dòng)視覺(jué)跟蹤的訓練問(wèn)題,不僅僅前背景物體外觀(guān)的多樣性,目標運動(dòng)軌跡的復雜程度也將直接影響跟蹤器的泛化能力??梢钥紤]一種極端的情況:如果訓練時(shí)目標只往前走,那么
    的頭像 發(fā)表于 02-20 09:13 ?8194次閱讀

    基于labview的目標跟蹤

    如何用labview編程實(shí)現目標框選跟蹤,camshift算法?請高手們幫幫忙,急求
    發(fā)表于 03-18 10:47

    視頻跟蹤目標取差器)-基于DM8168實(shí)現的自動(dòng)視頻跟蹤

    、運動(dòng)方向等自動(dòng)獲取目標。[td]跟蹤算法質(zhì)心跟蹤算法:這種跟蹤方式用于跟蹤有界
    發(fā)表于 09-05 11:14

    視頻跟蹤目標跟蹤算法簡(jiǎn)介(上海凱視力成信息科技有限...

    。www.casevision.net質(zhì)心跟蹤算法(Centroid)這種跟蹤方式用于跟蹤有界目標如飛機,
    發(fā)表于 09-29 08:59

    labview求目標跟蹤程序

    求大神指導Labview目標跟蹤
    發(fā)表于 11-27 13:34

    基于OPENCV的運動(dòng)目標跟蹤實(shí)現

    CAMSHIFT算法是一種基于顏色直方圖的目標跟蹤算法。在視頻跟蹤過(guò)程中,CAMSHIFT算法利用選定目標的顏色直方圖模型得到每幀圖像的顏色投影圖,并根據上一幀
    發(fā)表于 12-23 14:21

    無(wú)人機編隊視頻序列中的多目標精確跟蹤

    無(wú)人機編隊視頻序列中的多目標精確跟蹤::針對無(wú)人機編隊視頻序列中的多目標精確跟蹤的要求,使用STK(satellitetoolkit)三維建模
    發(fā)表于 03-18 16:21 ?19次下載

    基于強跟蹤UKF的室內目標跟蹤_張英坤

    基于強跟蹤UKF的室內目標跟蹤_張英坤
    發(fā)表于 01-12 19:56 ?1次下載

    基于張量投票在目標跟蹤中的應用

    目標跟蹤是在一段視頻序列中定位感興趣的運動(dòng)目標,并形成目標運動(dòng)的路徑或軌跡。作為計算機視覺(jué)領(lǐng)域中視頻分析的基本內容之一,目標
    發(fā)表于 12-11 17:24 ?0次下載

    基于多尺度自適應權重的目標跟蹤算法

    遮擋、目標外觀(guān)劇烈變化等,往往會(huì )丟失目標。文中分析原算法跟蹤原理得到了產(chǎn)生目標跟蹤丟失的原因?;贏(yíng)SLA算法,提出了3點(diǎn)改進(jìn)方法:1)適應
    發(fā)表于 06-16 15:32 ?7次下載

    視頻目標跟蹤分析

    視頻目標跟蹤要求在已知第一幀感興趣物體的位置和尺度信息的情況下,對該目標在后續視頻幀中進(jìn)行持續的定位和尺度估計W。廣義的目標跟蹤通常包含單
    的頭像 發(fā)表于 07-05 11:24 ?1237次閱讀

    在MATLAB/simulink中建模時(shí)的兩種不同實(shí)現方式

    導讀:本期文章主要介紹在MATLAB/simulink中建模時(shí)的兩種不同實(shí)現方式,一種是直接用現成的文件庫中的模塊進(jìn)行搭建,一種是用Sfunction代碼實(shí)現。接下來(lái)以電壓型磁鏈觀(guān)測器為建模
    的頭像 發(fā)表于 09-15 10:07 ?1583次閱讀

    MATLAB/simulink中兩種實(shí)現建模方式的優(yōu)勢

    導讀:本期文章主要介紹在MATLAB/simulink中建模時(shí)的兩種不同實(shí)現方式,一種是直接用現成的文件庫中的模塊進(jìn)行搭建,一種是用Sfunction代碼實(shí)現。接下來(lái)以電壓型磁鏈觀(guān)測器為建模
    的頭像 發(fā)表于 09-15 10:10 ?4535次閱讀

    利用TRansformer進(jìn)行端到端的目標檢測及跟蹤

    目標跟蹤(MOT)任務(wù)的關(guān)鍵挑戰是跟蹤目標下的時(shí)間建模?,F存的用檢測跟蹤的方法采用簡(jiǎn)單的heu
    的頭像 發(fā)表于 04-18 09:12 ?739次閱讀

    SystemVerilog的覆蓋率建模方式

    為了確保驗證的完備性,我們需要量化驗證目標。SystemVerilog提供了一套豐富的覆蓋率建模方式。
    的頭像 發(fā)表于 06-25 10:44 ?697次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看