<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于 Transformer 的分割與檢測方法

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-07-05 10:18 ? 次閱讀

來源:機器之心 SAM (Segment Anything )作為一個視覺的分割基礎模型,在短短的 3 個月時間吸引了很多研究者的關注和跟進。如果你想系統地了解 SAM 背后的技術,并跟上內卷的步伐,并能做出屬于自己的 SAM 模型,那么接下這篇 Transformer-Based 的 Segmentation Survey 是不容錯過!近期,南洋理工大學和上海人工智能實驗室幾位研究人員寫了一篇關于Transformer-Based 的 Segmentation 的綜述,系統地回顧了近些年來基于 Transformer的分割與檢測模型,調研的最新模型截止至今年 6 月!同時,綜述還包括了相關領域的最新論文以及大量的實驗分析與對比,并披露了多個具有廣闊前景的未來研究方向!

視覺分割旨在將圖像、視頻幀或點云分割為多個片段或組。這種技術具有許多現實世界的應用,如自動駕駛、圖像編輯、機器人感知和醫學分析。在過去的十年里,基于深度學習的方法在這個領域取得了顯著的進展。最近,Transformer 成為一種基于自注意力機制的神經網絡,最初設計用于自然語言處理,在各種視覺處理任務中明顯超越了以往的卷積或循環方法。具體而言,視覺 Transformer 為各種分割任務提供了強大、統一甚至更簡單的解決方案。本綜述全面概述了基于 Transformer 的視覺分割,總結了最近的進展。首先,本文回顧了背景,包括問題定義、數據集和以往的卷積方法。接下來,本文總結了一個元架構,將所有最近的基于 Transformer 的方法統一起來?;谶@個元架構,本文研究了各種方法設計,包括對這個元架構的修改和相關應用。此外,本文還介紹了幾個相關的設置,包括 3D 點云分割、基礎模型調優、域適應分割、高效分割和醫學分割。此外,本文在幾個廣泛認可的數據集上編譯和重新評估了這些方法。最后,本文確定了這個領域的開放挑戰,并提出了未來研究的方向。本文仍會持續和跟蹤最新的基于 Transformer 的分割與檢測方法。

8b1ef7de-1ad9-11ee-962d-dac502259ad0.png

項目地址:https://github.com/lxtGH/Awesome-Segmentation-With-Transformer

論文地址:https://arxiv.org/pdf/2304.09854.pdf

研究動機

ViT 和 DETR 的出現使得分割與檢測領域有了十足的進展,目前幾乎各個數據集基準上,排名靠前的方法都是基于 Transformer 的。為此有必要系統地總結與對比下這個方向的方法與技術特點。

近期的大模型架構均基于 Transformer 結構,包括多模態模型以及分割的基礎模型(SAM),視覺各個任務向著統一的模型建??繑n。

分割與檢測衍生出來了很多相關下游任務,這些任務很多方法也是采用 Transformer 結構來解決。

綜述特色

系統性和可讀性。本文系統地回顧了分割的各個任務定義,以及相關任務定義,評估指標。并且本文從卷積的方法出發,基于 ViT 和 DETR,總結出了一種元架構?;谠撛軜?,本綜述把相關的方法進行歸納與總結,系統地回顧了近期的方法。具體的技術回顧路線如圖 1 所示。

技術的角度進行細致分類。相比于前人的 Transformer 綜述,本文對方法的分類會更加的細致。本文把類似思路的論文匯聚到一起,對比了他們的相同點以及不同點。例如,本文會對同時修改元架構的解碼器端的方法進行分類,分為基于圖像的 Cross Attention,以及基于視頻的時空 Cross Attention 的建模。

研究問題的全面性。本文會系統地回顧分割各個方向,包括圖像,視頻,點云分割任務。同時,本文也會同時回顧相關的方向比如開集分割于檢測模型,無監督分割和弱監督分割。

8b357a54-1ad9-11ee-962d-dac502259ad0.png

圖 1. Survey 的內容路線圖

8b4f4db2-1ad9-11ee-962d-dac502259ad0.png

圖 2. 常用的數據集以及分割任務總結

Transformer-Based 分割和檢測方法總結與對比

8b6ba7c8-1ad9-11ee-962d-dac502259ad0.png

圖 3. 通用的元架構框架(Meta-Architecture)

本文首先基于 DETR 和 MaskFormer 的框架總結出了一個元架構。這個模型包括了如下幾個不同的模塊:

Backbone:特征提取器,用來提取圖像特征。

Neck:構建多尺度特征,用來處理多尺度的物體。

Object Query:查詢對象,用于代表場景中的每個實體,包括前景物體以及背景物體。

Decoder:解碼器,用于去逐步優化 Object Query 以及對應的特征。

End-to-End Training:基于 Object Query 的設計可以做到端到端的優化。

基于這個元架構,現有的方法可以分為如下五個不同的方向來進行優化以及根據任務進行調整,如圖 4 所示,每個方向有包含幾個不同的子方向。

8b807cb6-1ad9-11ee-962d-dac502259ad0.png

圖 4. Transformer-Based Segmentation 方法總結與對比

更好的特征表達學習,Representation Learning。強大的視覺特征表示始終會帶來更好的分割結果。本文將相關工作分為三個方面:更好的視覺 Transformer 設計、混合 CNN/Transformer/MLP 以及自監督學習。

解碼器端的方法設計,Interaction Design in Decoder。本章節回顧了新的 Transformer 解碼器設計。本文將解碼器設計分為兩組:一組用于改進圖像分割中的交叉注意力設計,另一組用于視頻分割中的時空交叉注意力設計。前者側重于設計一個更好的解碼器,以改進原始 DETR 中的解碼器。后者將基于查詢對象的目標檢測器和分割器擴展到視頻領域,用于視頻目標檢測(VOD)、視頻實例分割(VIS)和視頻像素分割(VPS),重點在建模時間一致性和關聯性。

嘗試從查詢對象優化的角度,Optimizing Object Query。與 Faster-RCNN 相比,DETR 要更長的收斂時間表。由于查詢對象的關鍵作用,現有的一些方法已經展開了研究,以加快訓練速度和提高性能。根據對象查詢的方法,本文將下面的文獻分為兩個方面:添加位置信息和采用額外監督。位置信息提供了對查詢特征進行快速訓練采樣的線索。額外監督著重設計了除 DETR 默認損失函數之外的特定損失函數。

使用查詢對象來做特征和實例的關聯,Using Query For Association。受益于查詢對象的簡單性,最近的多個研究將其作為關聯工具來解決下游任務。主要有兩種用法:一種是實例級別的關聯,另一種是任務級別的關聯。前者采用實例判別的思想,用于解決視頻中的實例級匹配問題,例如視頻的分割和跟蹤。后者使用查詢對象來橋接不同子任務實現高效的多任務學習。

多模態的條件查詢對象生成,Conditional Query Generation。這一章節主要關注多模態分割任務。條件查詢查詢對象主要來處理跨模態和跨圖像的特征匹配任務。根據任務輸入條件而確定的,解碼器頭部使用不同的查詢來獲取相應的分割掩碼。根據不同輸入的來源,本文將這些工作分為兩個方面:語言特征和圖像特征。這些方法基于不同模型特征融合查詢對象的策略,在多個多模態的分割任務以及 few-shot 分割上取得了不錯的結果。

圖 5 中給出這 5 個不同方向的一些代表性的工作對比。更具體的方法細節以及對比可以參考論文的內容。

8b9c98b0-1ad9-11ee-962d-dac502259ad0.png

圖 5. Transformer-based 的分割與檢測代表性的方法總結與對比

相關研究領域的方法總結與對比

本文還探索了幾個相關的領域:1,基于 Transformer 的點云分割方法。2, 視覺與多模態大模型調優。3,域相關的分割模型研究,包括域遷移學習,域泛化學習。4,高效語義分割:無監督與弱監督分割模型。5,類無關的分割與跟蹤。6,醫學圖像分割。

8bb5a148-1ad9-11ee-962d-dac502259ad0.png

圖 6. 相關研究領域的基于 Transformer 方法總結與對比

不同方法的實驗結果對比

8bd84482-1ad9-11ee-962d-dac502259ad0.png

圖 7. 語義分割數據集的基準實驗

8beb4fb4-1ad9-11ee-962d-dac502259ad0.png

圖 8. 全景分割數據集的基準實驗

本文還統一地使用相同的實驗設計條件來對比了幾個代表性的工作在全景分割以及語義分割上多個數據集的結果。結果發現,在使用相同的訓練策略以及編碼器的時候,方法性能之間的差距會縮小。

此外,本文還同時對比了近期的 Transformer-based 的分割方法在多個不同數據集和任務上結果。(語義分割,實例分割,全景分割,以及對應的視頻分割任務)

未來方向

此外本文也給出了一些未來的可能一些研究方向分析。這里給出三個不同的方向作為例子。

加通用與統一的分割模型。使用 Transformer 結構來統一不同的分割任務是一個趨勢。最近的研究使用基于查詢對象的 Transformer 在一個體系結構下執行不同的分割任務。一個可能的研究方向是通過一個模型在各種分割數據集上統一圖像和視頻分割任務。這些通用模型可以在各種場景中實現通用和穩健的分割,例如,在各種場景中檢測和分割罕見類別有助于機器人做出更好的決策。

結合視覺推理的分割模型。視覺推理要求機器人理解場景中物體之間的聯系,這種理解在運動規劃中起著關鍵作用。先前的研究已經探索了將分割結果作為視覺推理模型的輸入,用于各種應用,如目標跟蹤和場景理解。聯合分割和視覺推理可以是一個有前景的方向,對分割和關系分類都具有互惠的潛力。通過將視覺推理納入分割過程中,研究人員可以利用推理的能力提高分割的準確性,同時分割結果也可以為視覺推理提供更好的輸入。

持續學習的分割模型研究。現有的分割方法通常在封閉世界的數據集上進行基準測試,這些數據集具有一組預定義的類別,即假設訓練和測試樣本具有預先知道的相同類別和特征空間。然而,真實場景通常是開放世界和非穩定的,新類別的數據可能不斷出現。例如,在自動駕駛車輛和醫學診斷中,可能會突然出現未預料到的情況?,F有方法在現實和封閉世界場景中的性能和能力之間存在明顯差距。因此,希望能夠逐漸而持續地將新概念納入分割模型的現有知識庫中,使得模型能夠進行終身學習。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 檢測方法
    +關注

    關注

    0

    文章

    50

    瀏覽量

    9743
  • 自動駕駛
    +關注

    關注

    773

    文章

    13169

    瀏覽量

    163586
  • Transformer
    +關注

    關注

    0

    文章

    130

    瀏覽量

    5908

原文標題:最新綜述!基于Transformer的視覺分割

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于transformer和自監督學習的路面異常檢測方法分享

    鋪設異常檢測可以幫助減少數據存儲、傳輸、標記和處理的壓力。本論文描述了一種基于Transformer和自監督學習的新方法,有助于定位異常區域。
    的頭像 發表于 12-06 14:57 ?849次閱讀
    基于<b class='flag-5'>transformer</b>和自監督學習的路面異常<b class='flag-5'>檢測</b><b class='flag-5'>方法</b>分享

    PCB缺陷檢測中圖像分割算法

    圖像分割 在圖像處理中占有重要的地位,分割結果的好壞直接影響圖像的后續處理。本文介紹了4種常用的圖像分割方法及其在PCB缺陷檢測中的應用,并
    發表于 06-16 15:31 ?0次下載
    PCB缺陷<b class='flag-5'>檢測</b>中圖像<b class='flag-5'>分割</b>算法

    基于閾值分割的紅外圖像邊緣檢測方法

    提出了一種基于閾值分割的邊緣檢測算法。首先利用最大方差閾值法分割出紅外圖像的目標圖像,其次用線性拉伸的方法對目標圖像中存留的噪聲進行去除,最后運用Sobel算子對目標圖像進
    發表于 02-22 11:13 ?47次下載
    基于閾值<b class='flag-5'>分割</b>的紅外圖像邊緣<b class='flag-5'>檢測</b><b class='flag-5'>方法</b>

    內電層分割的一般方法

    內電層分割的一般方法,內電層分割的一般方法,內電層分割的一般方法。
    發表于 12-25 10:05 ?0次下載

    基于圖像融合分割的實木地板表面缺陷檢測方法_張怡卓

    基于圖像融合分割的實木地板表面缺陷檢測方法_張怡卓
    發表于 01-07 15:26 ?0次下載

    圖像分割和圖像邊緣檢測

     圖像分割的研究多年來一直受到人們的高度重視,至今提出了各種類型的分割算法。Pal把圖像分割算法分成了6類:閾值分割,像素分割、深度圖像
    發表于 12-19 09:29 ?1w次閱讀
    圖像<b class='flag-5'>分割</b>和圖像邊緣<b class='flag-5'>檢測</b>

    圖像分割的基本方法解析

    本文詳細介紹了圖像分割的基本方法有:基于邊緣的圖像分割方法、閾值分割方法、區域
    發表于 12-20 11:06 ?10.9w次閱讀
    圖像<b class='flag-5'>分割</b>的基本<b class='flag-5'>方法</b>解析

    基于Transformer的掩膜時序建模方法

      現有時序異常檢測方法存在計算效率低和可解釋性差的問題??紤]到 Transformer模型在自然語言處理任務中表現岀并行效率髙且能夠跨距離提取關系的優勢,提岀基于 Transformer
    發表于 03-10 16:08 ?1次下載

    一種基于Mask R-CNN的人臉檢測分割方法

    針對現有主流的人臉檢測算法不具備像素級分割,從而存在人臉特征具有噪聲及檢測精度不理想的問題提出了一種基于 Mask r-CNN的人臉檢測分割
    發表于 04-01 10:42 ?5次下載
    一種基于Mask R-CNN的人臉<b class='flag-5'>檢測</b>及<b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    如何使用Transformer來做物體檢測?

    導讀 本文為一個Facebook的目標檢測Transformer (DETR)的完整指南,詳細介紹了DETR架構的內部工作方式以及代碼。 介紹 DEtection TRansformer (DETR
    的頭像 發表于 04-25 10:45 ?2365次閱讀
    如何使用<b class='flag-5'>Transformer</b>來做物體<b class='flag-5'>檢測</b>?

    使用跨界模型Transformer來做物體檢測!

    這是一個Facebook的目標檢測Transformer (DETR)的完整指南。 介紹 DEtection TRansformer (DETR)是Facebook研究團隊巧妙地利
    的頭像 發表于 06-10 16:04 ?1979次閱讀
    使用跨界模型<b class='flag-5'>Transformer</b>來做物體<b class='flag-5'>檢測</b>!

    普通視覺Transformer(ViT)用于語義分割的能力

    本文探討了普通視覺Transformer(ViT)用于語義分割的能力,并提出了SegViT。以前基于ViT的分割網絡通常從ViT的輸出中學習像素級表示。不同的是,本文利用基本的組件注意力機制生成語義
    的頭像 發表于 10-31 09:57 ?4124次閱讀

    利用Transformer和CNN 各自的優勢以獲得更好的分割性能

    概述 在這篇論文中,提出了一種新的醫學圖像分割混合架構:PHTrans,它在主要構建塊中并行混合 Transformer 和 CNN,分別從全局和局部特征中生成層次表示并自適應聚合它們,旨在充分利用
    的頭像 發表于 11-05 11:38 ?5891次閱讀

    視覺Transformer在CV中的現狀、趨勢和未來方向

    全面性和可讀性:本文根據它們在三個基本CV任務(即分類、檢測分割)和數據流類型(即圖像、點云、多流數據)上的應用,全面回顧了100多個視覺Transformer。論文選擇了更具代表性的方法
    的頭像 發表于 11-08 14:20 ?2286次閱讀

    機器視覺圖像分割方法有哪些?

    現有的圖像分割方法主要分以下幾類:基于閾值(threshold)的分割方法、基于區域的分割方法、
    發表于 11-02 10:26 ?510次閱讀
    機器視覺圖像<b class='flag-5'>分割</b>的<b class='flag-5'>方法</b>有哪些?
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>