<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

南開大學提出LSKNet:遙感旋轉目標檢測新SOTA!

CVer ? 來源:CVer ? 2023-07-18 16:57 ? 次閱讀

Abstract

最近關于遙感物體檢測的研究主要集中在改進旋轉包圍框的表示方法上,但忽略了遙感場景中出現的獨特的先驗知識。這種先驗知識是非常重要的,因為微小的遙感物體可能會在沒有參考足夠長距離背景的情況下被錯誤地檢測出來,而不同類型的物體所要求的長距離背景可能會有所不同。在本文中,我們將這些先驗因素考慮在內,并提出了Large Selective Kernel Network(LSKNet)。LSKNet可以動態地調整其大空間感受野,以更好地建模遙感場景中各種物體的測距的場景。據我們所知,這是首次在遙感物體檢測領域探索大選擇性卷積核機制的工作。在沒有任何附加條件的情況下,我們LSKNet比主流檢測器輕量的多,而且在多個數據集上刷新了SOTA!HRSC2016(98.46% mAP)、DOTA-v1.0(81.64% mAP)和FAIR1M-v1.0(47.87% mAP)。

Introduction

近期很少有工作考慮到遙感圖像中存在的強大的先驗知識。航空圖像通常是以高分辨率的鳥瞰視角拍攝的。特別是,航空圖像中的大多數物體可能是小尺寸的,僅憑其外觀很難識別。相反,這些物體的成功識別往往依賴于它們的背景,因為周圍的環境可以提供關于它們的形狀、方向和其他特征的寶貴線索。根據對主流遙感數據集的分析,我們確定了兩個重要的前提條件:

4f32ea0a-24bb-11ee-962d-dac502259ad0.jpg

圖1. 成功地檢測遙感目標需要使用廣泛的背景信息。感受野有限的探測器可能很容易導致錯誤的探測結果。CT :Context

(1)準確檢測遙感圖像中的物體往往需要廣泛的背景信息。

如圖1(a)所示,遙感圖像中的物體檢測器所使用的有限范圍的背景往往會導致錯誤的分類。例如,在上層圖像中,由于其典型特征,檢測器可能將T子路口歸類為十字路口,但實際上,它不是一個十字交路口。同樣,在下圖中,由于大樹的存在,檢測器可能將十字路口歸類為非路口,但這也是不正確的。這些錯誤的發生是因為檢測器只考慮了物體附近的有限的上下文信息。在圖1(b)中的船舶和車輛的例子中也可以看到類似的情況。

4f446f32-24bb-11ee-962d-dac502259ad0.jpg

圖2. 按照人類的標準,不同的物體類型所需要的背景信息范圍非常不同。紅框是目標GT標注。

(2) 不同類型的物體所需的上下文信息的范圍非常不同。如圖2所示,在遙感圖像中進行準確的物體檢測所需的背景信息量會因被檢測物體的類型而有很大不同。例如,足球場可能需要相對較少的額外環境信息,因為它有獨特的可區分的球場邊界線。相比之下,環島可能需要更大范圍的上下文信息,以區分花園和環形建筑。交叉口,特別是那些部分被樹木覆蓋的交叉口,由于相交道路之間的長距離依賴性,往往需要一個非常大的感受野。這是因為樹木和其他障礙物的存在會使人們難以僅僅根據外觀來識別道路和交叉口本身。其他物體類別,如橋梁、車輛和船舶,也可能需要不同規模的感受野,以便被準確檢測和分類。

因為這些圖像往往需要廣泛和動態的背景信息,我們提出了一種新的方法,稱為Large Selective Kernel Network(LSKNet)。我們的方法包括動態調整特征提取骨干的感受野,以便更有效地處理被檢測物體的不同的廣泛背景。這是通過一個空間選擇機制來實現的,該機制對一連串的大depth-wise卷積核所處理的特征進行有效加權,然后在空間上將它們合并。這些核的權重是根據輸入動態確定的,允許該模型自適應地使用不同的大核,并根據需要調整空間中每個目標的感受野。據我們所知,我們提出的LSKNet是第一個研究和討論在遙感物體探測中使用大的和有選擇性的卷積核的模型。盡管我們的模型很簡單,但在三個流行的數據集上實現了最先進的性能。HRSC2016(98.46% mAP)、DOTA-v1.0(81.64% mAP)和FAIR1M-v1.0(47.87% mAP),超過了之前公布的結果。此外,我們實驗證明了我們模型的行為與上述兩個先驗假設的一致性。

Method

4f61a660-24bb-11ee-962d-dac502259ad0.jpg

圖3. LSK Block 圖示

4f76eb74-24bb-11ee-962d-dac502259ad0.jpg

圖4. LSK Module 的概念圖。

LSKNet Architecture

圖3展示了一個LSKNet Bolck的圖示,是主干網中的一個重復塊,其靈感來自ConvNeXt, PVT-v2, VAN, Conv2Former 和 MetaFormer。每個LSKNet塊由兩個剩余子塊組成:大核選擇(LK Selection)子塊和前饋網絡(FFN)子塊。LK選擇子塊根據需要動態地調整網絡的感受野。前饋網絡子塊用于通道混合和特征細化,由一個全連接層、一個深度卷積、一個GELU激活和第二個全連接層組成的序列。核心模塊LSK Module(圖4)被嵌入到LK選擇子塊中。它由一連串的大內核卷積和一個空間內核選擇機制組成。

Large Kernel Convolutions & Spatial Kernel Selection

根據Introduction中所說的先驗(2),建議對一系列的多個尺度的背景進行建模,以進行適應性選擇。因此,我們建議通過明確地將其分解為一連串具有大的卷積核和不斷擴張的depth-wise卷積來構建一個更大感受野的網絡。其序列中第i個深度卷積的核大小k、擴張率d和感受野RF的擴展定義如下:

4f913146-24bb-11ee-962d-dac502259ad0.png

核的大小和擴張率的增加確保了感受野有足夠快的擴展。我們對擴張率設定了一個上限,以保證擴張卷積不會在特征圖之間引入空隙。

所提出的設計有兩個優點。第一,它明確地產生了具有各種大感受野的多個特征,這使得后來的內核選擇更加容易。第二,順序分解比簡單地應用一個較大的核更有效更高效。為了提高網絡關注檢測目標的最相關的空間背景區域的能力,我們使用了一種空間選擇機制,從不同尺度的大卷積核中空間選擇特征圖。圖4顯示了LSK模塊的詳細概念圖,在這里我們直觀地展示了大選擇核是如何通過自適應地收集不同物體的相應大感受野而發揮作用的。

LSK Module 的pytorch代碼如下:

class LSKmodule(nn.Module):
    def __init__(self, dim):
        super().__init__()
        self.conv0 = nn.Conv2d(dim, dim, 5, padding=2, groups=dim)
        self.convl = nn.Conv2d(dim, dim, 7, stride=1, padding=9, groups=dim, dilation=3)
        self.conv0_s = nn.Conv2d(dim, dim//2, 1)
        self.conv1_s = nn.Conv2d(dim, dim//2, 1)
        self.conv_squeeze = nn.Conv2d(2, 2, 7, padding=3)
        self.conv_m = nn.Conv2d(dim//2, dim, 1)

    def forward(self, x):   
        attn1 = self.conv0(x)
        attn2 = self.convl(attn1)

        attn1 = self.conv0_s(attn1)
        attn2 = self.conv1_s(attn2)
        
        attn = torch.cat([attn1, attn2], dim=1)
        avg_attn = torch.mean(attn, dim=1, keepdim=True)
        max_attn, _ = torch.max(attn, dim=1, keepdim=True)
        agg = torch.cat([avg_attn, max_attn], dim=1)
        sig = self.conv_squeeze(agg).sigmoid()
        attn = attn1 * sig[:,0,:,:].unsqueeze(1) + attn2 * sig[:,1,:,:].unsqueeze(1)
        attn = self.conv_m (attn)
        return x * attn

Results

在我們的實驗中,我們報告了HRSC2016、DOTA-v1.0和FAIR1M-v1.0數據集上的檢測模型結果。為了保證公平性,我們遵循與其他主流方法相同的數據集處理方法和訓練方式(如S2A-Net, Oriented RCNN, R3Det...)。

4f9c6d72-24bb-11ee-962d-dac502259ad0.jpg

表1. LSKNet-T和ResNet-18作為骨干網在DOTA-v1.0上的不同檢測框架的比較。LSKNet-T骨干網在ImageNet上進行了100次預訓練。與ResNet-18相比,輕量級的LSKNet-T在各種框架中取得了明顯更高的mAP。

在不同檢測框架下,使用我們的LSKNet骨干,模型更輕量,對檢測模型性能提升巨大?。ū?)

4fab049a-24bb-11ee-962d-dac502259ad0.jpg

表2. 在DOTA-v1.0的O-RCNN框架下,LSKNet-S和其他(大核/選擇性注意)骨干的比較,除了Prev Best是在RTMDet下。所有骨干網都在ImageNet上進行了100次預訓練。我們的LSKNet在類似的復雜度預算下實現了最佳的mAP,同時超過了之前的最佳公開記錄。

在相同檢測框架的不同骨干網絡(大卷積核和選擇性機制的骨干網絡)中,在相似模型復雜的的前提下,我們的LSKNet骨干mAP更強?。ū?)

4fbe35c4-24bb-11ee-962d-dac502259ad0.png

表3. 在HRSC2016數據集上與最先進的方法比較。

在HRSC2016數據集上,性能超越之前所有的方法?。ū?)

4fe0157c-24bb-11ee-962d-dac502259ad0.png

表4. 在多尺度訓練和測試的DOTA-v1.0數據集上與最先進的方法進行比較

在DOTA-v1.0數據集上,性能超越之前所有的方法?。ū?)在此數據集上,(近期的方法在性能上近乎飽和,最近的SOTA方法RVSA用了極為重量的模型和在龐大的數據集上做預訓練才勉強突破0.81的mAP,RTMDet則是在COCO預訓練,36epoch加EMA的微調方式,而其他主流方法都是ImageNet預訓練和12epoch w/o EMA微調,才達到81.33的性能。)我們的方法在模型參數量和計算復雜度全面小于其他方法的前提下,性能刷新了新的SOTA!

5005e59a-24bb-11ee-962d-dac502259ad0.png

表5. 在FAIR1M-v1.0數據集上與最先進的方法比較。*: 結果參考了FAIR1M論文[51]。

在近期中國空天院提出的FAIR1M-v1.0數據集上,我們也刷新了mAP。

Ablation Study

消融實驗部分,為了提高實驗效率,我們采用LSKNet-T骨架在ImageNet上做100個epoch的骨干預訓練。

5021b608-24bb-11ee-962d-dac502259ad0.jpg

表6. 分解的大核的數量對推理的FPS和mAP的影響,給定的理論感受野是29。將大核分解成兩個深度方向的核,實現了速度和精度的最佳表現。

502d56de-24bb-11ee-962d-dac502259ad0.jpg

表7. 當大卷積被分解成兩個連續的depth-wise卷積時,LSKNet的關鍵設計組件的有效性。CS:通道選擇(類似于SKNet);SS:空間選擇(我們的)。LSKNet在使用一個合理的大的感受野和空間選擇時取得了最佳性能。

50448dae-24bb-11ee-962d-dac502259ad0.jpg

表8. 對我們提出的LSK模塊的空間選擇中的最大和平均池化的有效性進行消融實驗。在同時使用最大和平均池化時,獲得了最好的結果。

Analysis

5052b6b8-24bb-11ee-962d-dac502259ad0.jpg

圖5. 使用ResNet-50和LSKNet-S的O-RCNN檢測框架的Eigen-CAM可視化。我們提出的LSKNet可以對長范圍的上下文信息進行建模,從而在各種困難的情況下獲得更好的性能。

圖5所示,LSKNet-S可以捕捉到更多與檢測到的目標相關的背景信息,從而在各種困難情況下有更好的表現,這證明了我們的先驗(1)。

506e8118-24bb-11ee-962d-dac502259ad0.jpg

圖6. DOTA-v1.0中物體類別的預期感受野和GT框面積的比率:Rc。不同物體類別所需的相對范圍有很大的不同。

為了研究每個物體類別的感受野范圍,我們定義物體類別預期感受野和GT框面積的比率:Rc。此數值越大,說明目標需要的額外感受野越大。圖6中結果表明,與其他類別相比,橋梁類別需要更多的額外上下文信息,這主要是由于它與道路的特征相似,并且需要語境線索來確定它是否被水所包圍。相反,球場類別,如足球場,由于其獨特的紋理屬性,特別是球場邊界線,需要最少的上下文信息。這與我們的常識相吻合,并進一步支持先前的觀點(2),即不同的物體類別所需的上下文信息的相對范圍有很大不同。

508996d8-24bb-11ee-962d-dac502259ad0.jpg

圖7. DOTA-v1.0中物體類別的感受野激活,其中激活圖來自我們訓好的LSKNet模型根據主論文公式(8)(即空間激活)得出。物體類別按照從左上到右下的順序,據預期感受野面積和GT框面積之比遞減排列(及圖6中的數值順序)

我們進一步研究我們的LSKNet中的大核選擇傾向性行為。我們定義了Kernel Selection Difference(較大的感受野卷積核特征圖激活值 - 較小的感受野卷積核特征圖激活值)。

5098759a-24bb-11ee-962d-dac502259ad0.jpg

圖8. 橋梁、環島和足球場的LSKNet-T塊中的大卷積核選擇差異。B i j代表第i階段的第j個LSK Block,數值越大,表明檢測時更傾向于選擇有更大感受野的卷積核,對更大范圍的背景的依賴性也越大。

在圖8中,我們展示了三個典型類別的所有圖像的歸一化Kernel Selection Difference:橋梁、環形路和足球場,以及每個LSKNet-T塊的情況。正如預期的那樣,Bridge的所有塊的大核的參與度高于Roundabout,而Roundabout則高于Soccer-ball-field。這與常識一致,即Soccer-ball-field確實不需要大量的上下文,因為它本身的紋理特征已經足夠明顯和具有鑒別性。我們還出人意料地發現了LSKNet在網絡深度上的另一種選擇模式。LSKNet通常在其淺層利用較大感受野的卷積核,而在較高的層次利用較小的。這表明,網絡傾向于在網絡淺層迅速擴大感受野捕捉信息,以便高層次的語義學能夠包含足夠的感受野,從而獲得更好的辨別力。


	


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 檢測器
    +關注

    關注

    1

    文章

    812

    瀏覽量

    47318
  • 圖像
    +關注

    關注

    2

    文章

    1067

    瀏覽量

    40075
  • 遙感
    +關注

    關注

    0

    文章

    213

    瀏覽量

    16623
  • 數據集
    +關注

    關注

    4

    文章

    1181

    瀏覽量

    24397

原文標題:ICCV 2023 | 南開大學提出LSKNet:遙感旋轉目標檢測新SOTA!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    南開大學origin使用指南

    發表于 10-14 22:36

    LCoS芯片設計要考慮什么?

    LCOS是微電子學、光學和視頻顯示技術相結合的新技術。我國LCOS微顯示芯片的研究始于1998年,南開大學信息學院光電子所在教育部和天津市科委的支持下,在國內率先開展了LCOS微顯示器芯片技術的研究,取得了重大進展,自主研制成功我國第一枚LCOS微顯示芯片。
    發表于 09-12 09:11

    南開大學量子力學考研試題

    南開大學量子力學考研試題
    發表于 11-25 16:10 ?0次下載

    南開大學提出了高性能太赫茲隱身材料設計的新思路

    南開大學團隊在石墨烯功能材料及其隱身應用方面開展了深入的研究工作。針對傳統隱身材料無法有效對抗太赫茲波探測的挑戰,提出了高性能太赫茲隱身材料設計的新思路。
    的頭像 發表于 12-29 15:27 ?4733次閱讀

    南開大學決定成立人工智能學院

    據最新消息,南開大學辦公室在5月11日印發中共南開大學委員會文件,決定成立南開大學人工智能學院。
    的頭像 發表于 05-17 09:04 ?5612次閱讀
    <b class='flag-5'>南開大學</b>決定成立人工智能學院

    南開大學教授田利輝:區塊鏈金融面臨五大風險

    08:22【南開大學教授田利輝:區塊鏈金融面臨五大風險】據北方網報道,南開大學教授田利輝在《對話達沃斯》節目上指出,金融和風險是一枚硬幣的兩面。金融的新風險可以通過新技術手段予以防范,通過前沿技術
    的頭像 發表于 09-27 16:53 ?1548次閱讀

    南開大學提出最新邊緣檢測和圖像過分割被 IEEE PAMI 錄用

    數據會隨著圖像尺度和縱橫比進行變化。在本文中,我們提出了一種使用更豐富的卷積特征(Richer convolution features, RCF)的精準邊緣檢測方法。
    的頭像 發表于 11-06 09:52 ?6462次閱讀

    南開大學開發出一種具有超高容量的鋰離子電池有機正極材料

    近日,中國科學院院士、南開大學化學學院教授陳軍團隊設計合成了一種具有超高容量的鋰離子電池有機正極材料:環己六酮,該材料包含地球豐富的碳、氫、氧元素,且此類有機正極材料展現了鋰離子電池目前所報道的最高容量值,刷新了鋰離子電池有機正極材料容量的世界紀錄。
    發表于 05-17 15:27 ?959次閱讀

    南開大學孫軍教授:逆流而上,為光電材料盡一份力

    孫軍教授就是南開大學鈮酸鋰晶體研究團隊中的一員。從1999年本科畢業進入905廠開始從事鈮酸鋰晶體研究,到去南開大學攻讀碩博學位繼續探索,再到今天,孫軍一直在鈮酸鋰晶體領域里專注了二十余年。
    的頭像 發表于 06-04 09:40 ?4910次閱讀

    “人工智能+機器人”高端論壇在南開大學舉行

    南開新聞網訊(通訊員周璐)10月10日,由人工智能學院、計算機學院、網絡空間安全學院、電子信息與光學工程學院、軟件學院聯合主辦的人工智能+機器人高端論壇在南開大學津南新校區舉行。 本次論壇以人工智能
    的頭像 發表于 10-21 15:37 ?1929次閱讀

    基于神經網絡的遙感圖像飛機目標檢測模型

    針對遙感圖像飛機檢測中存在的背景復雜和目標尺度變化大等問題,提出基于深度神經網絡的遙感圖像飛機目標
    發表于 03-30 09:24 ?17次下載
    基于神經網絡的<b class='flag-5'>遙感</b>圖像飛機<b class='flag-5'>目標</b><b class='flag-5'>檢測</b>模型

    Angew:高效發光的手性納米石墨烯

    近日,南開大學王小野課題組提出了一種在保持前線分子軌道(FMO)分布的條件下,將具有高ФF的發光基團進行螺旋π拓展,進而獲得具有優異發光性能的手性納米石墨烯的新策略(圖1)。
    的頭像 發表于 12-06 09:26 ?1336次閱讀

    綜述:基于柔性致動器的跳躍運動

    近日,南開大學劉遵峰教授等人近期在Advanced Functional Materials期刊上發表題為“Recent Development of Jumping Motions Based
    的頭像 發表于 05-24 15:36 ?310次閱讀
    綜述:基于柔性致動器的跳躍運動

    南開大學OpenHarmony技術俱樂部揭牌成立

    3月7日,由OpenAtom OpenHarmony(以下簡稱“OpenHarmony”)項目群技術指導委員會與南開大學共同舉辦的“南開大學OpenHarmony技術俱樂部成立大會”在津南校區綜合
    的頭像 發表于 03-08 08:37 ?183次閱讀
    <b class='flag-5'>南開大學</b>OpenHarmony技術俱樂部揭牌成立

    南開大學和字節跳動聯合開發一款StoryDiffusion模型

    近日,南開大學和字節跳動聯合開發的 StoryDiffusion 模型解決了擴散模型生成連貫圖像與視頻的難題。
    的頭像 發表于 05-07 14:46 ?383次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>