<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

百度開源DETRs在實時目標檢測中勝過YOLOs

這篇論文介紹了一種名為RT-DETR的實時檢測Transformer，是第一個實時端到端目標檢測器。該方法通過設計高效的混合編碼器和IoU感知的查詢選擇，有效處理多尺度特征，并支持靈活調整推斷速度，無需重新訓練。在COCO val2017數據集上，RT-DETR-L實現了53.0%的AP和114 FPS，RT-DETR-X實現了54.8%的AP和74 FPS，RT-DETR-R50實現了53.1%的AP和108 FPS，性能優于同等規模的YOLO檢測器和DINO-DeformableDETR-R50模型。

讀者理解：

本文提出了一種新的實時端到端目標檢測器RT-DETR，并通過詳細的分析和實驗證明了其在速度和準確性方面的優勢。文章對NMS進行了深入的分析，并指出了當前實時檢測器中存在的問題，為提出新的解決方案提供了理論基礎。RT-DETR的設計理念和實驗結果為實時目標檢測領域的研究和應用提供了新的思路和方法。整體來說，這篇文章對實時目標檢測領域具有重要的學術和應用價值。

1 引言

目標檢測是一項重要的視覺任務，涉及在圖像中識別和定位物體?，F代目標檢測器有兩種典型架構：基于CNN和基于Transformer?；贑NN的檢測器架構從最初的兩階段發展到單階段，并出現了基于錨點和基于無錨點的檢測范式。這些研究取得了顯著進展?；赥ransformer的目標檢測器（DETRs）自提出以來受到廣泛關注，因為它消除了各種手工制作的組件，如非最大抑制（NMS），實現了端到端的目標檢測。實時目標檢測是一個重要的研究領域，現有的實時檢測器通常采用基于CNN的架構，但需要NMS進行后處理，導致推理速度延遲。

近年來，基于Transformer的檢測器取得了顯著進展，但其高計算成本限制了實際應用。為了解決這些問題，作者提出了實時檢測Transformer（RT-DETR），是第一個實時端到端目標檢測器，不需要后處理，推理速度穩定。RT-DETR在速度和準確性上均優于當前最先進的實時檢測器，成為新的SOTA。

2 探測器端到端速度

2.1 NMS的分析

本部分介紹了目標檢測中常用的后處理算法非極大值抑制（NMS），用于消除檢測器輸出的重疊預測框。NMS需要兩個超參數：分數閾值和IoU閾值。作者通過實驗驗證了NMS對這兩個超參數的敏感性，并展示了NMS操作在不同超參數下的執行時間。實驗結果表明，NMS的執行時間主要取決于輸入預測框的數量和超參數的選擇。此外，作者還介紹了實驗中使用的模型（YOLOv5和YOLOv8）以及評估準確性和執行時間的方法。這些實驗結果有助于更好地理解NMS在目標檢測中的作用和影響。

2.2 端到端速度基準

本部分介紹了建立了一個端到端速度測試基準，以公平比較各種實時檢測器的推理速度。選擇了COCO val2017作為默認數據集，并使用了TensorRT的NMS后處理插件。通過測試基于錨點的檢測器（如YOLOv5和YOLOv7）以及無錨點檢測器（如PP-YOLOE、YOLOv6和YOLOv8）在T4 GPU上的端到端速度，發現無錨點檢測器在等效準確性下優于基于錨點的檢測器，因為前者的后處理時間明顯少于后者。這對于實時檢測器的后處理時間進行了新的探討，為實時目標檢測提供了重要的參考。

3 實時DETR

3.1

本部分介紹了提出的實時DETR（RT-DETR）的模型架構。RT-DETR由骨干網絡、混合編碼器和Transformer解碼器組成，解碼器帶有輔助預測頭。模型利用骨干網絡最后三個階段的輸出特征作為編碼器的輸入，然后通過混合編碼器將多尺度特征轉換為圖像特征序列。接下來，使用IoU感知的查詢選擇從編碼器輸出序列中選擇一定數量的圖像特征作為解碼器的初始對象查詢。最后，解碼器利用輔助預測頭迭代優化對象查詢，生成框和置信度分數。這種架構使得RT-DETR能夠實現端到端的實時目標檢測。

3.2 高效混合編碼器

本部分詳細介紹了實時DETR中的高效混合編碼器的設計和優化。作者通過分析多尺度Transformer編碼器中的計算冗余，提出了一種新穎的編碼器結構。該編碼器包括兩個模塊，即基于注意力的內部尺度特征交互（AIFI）模塊和基于CNN的跨尺度特征融合模塊（CCFM）。AIFI模塊在高級特征上執行內部尺度交互，以捕捉圖像中概念實體之間的關系。而CCFM模塊則通過融合塊實現跨尺度特征融合，進一步優化了編碼器性能。通過實驗驗證，這種編碼器結構顯著降低了計算成本，同時提高了模型的準確性和實時性，為實時目標檢測提供了重要的技術支持。

3.3 基于IoU的查詢選擇

本部分介紹了IoU感知的查詢選擇方法，用于在DETR模型中選擇高質量的編碼器特征作為對象查詢的初始化。傳統的查詢選擇方法可能導致選擇具有高分類分數但低IoU分數的特征，從而降低了檢測器的性能。為了解決這個問題，提出了IoU感知的查詢選擇，通過在訓練期間約束模型對具有高IoU分數的特征產生高分類分數，并對具有低IoU分數的特征產生低分類分數。實驗結果表明，這種方法可以提供更準確的分類和定位結果，從而提高了檢測器的準確性。

3.4 縮放RT-DETR

本部分介紹了縮放的RT-DETR，通過將ResNet骨干網絡替換為HGNetv2來提供可擴展的版本。我們使用深度倍增器和寬度倍增器一起縮放骨干網絡和混合編碼器。因此，我們得到了兩個具有不同參數數量和FPS的RT-DETR版本。對于我們的混合編碼器，我們通過調整CCFM中RepBlocks的數量和編碼器的嵌入維度來控制深度倍增器和寬度倍增器。值得注意的是，我們提出的不同規模的RT-DETR保持了相同的解碼器，這有助于使用高精度大型DETR模型對輕量級檢測器進行蒸餾。

4 實驗

該部分介紹了實驗設置和結果。實驗在Microsoft COCO數據集上進行，使用COCO train2017進行訓練，使用COCO val2017進行驗證。使用單尺度圖像作為輸入，采用標準的COCO AP指標評估性能。使用在ImageNet上預訓練的ResNet和HGNetv2作為骨干網絡，AIFI由1個transformer層組成，CCMF中的融合塊默認由3個RepBlocks組成。在IoU感知的查詢選擇中，選擇前300個編碼器特征來初始化解碼器的對象查詢。訓練策略和解碼器的超參數幾乎遵循DINO。使用AdamW優化器進行訓練，基礎學習率為0.0001，權重衰減為0.0001，全局梯度剪裁范數為5。實驗結果表明，使用IoU感知的查詢選擇可以提高檢測器的準確性。

總結

在本文中，提出了RT-DETR，據作者所知是第一個實時端到端檢測器。作者首先對NMS進行了詳細分析，并建立了一個端到端速度基準，驗證了當前實時檢測器的推理速度受到NMS延遲的事實。作者還從NMS的分析中得出結論，無錨點檢測器在相同準確性下優于基于錨點的檢測器。為了避免NMS造成的延遲，設計了一個實時端到端檢測器，包括兩個關鍵改進組件：一個能夠高效處理多尺度特征的混合編碼器和提高對象查詢初始化的IoU感知查詢選擇。大量實驗證明，與其他實時檢測器和相似大小的端到端檢測器相比，RT-DETR在速度和準確性上均達到了最先進的水平。此外，提出的檢測器支持通過使用不同的解碼器層靈活調整推理速度，無需重新訓練，這有利于實時目標檢測器的實際應用。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

檢測器

檢測器

+關注

關注
1

文章
818

瀏覽量
47358
編解碼器

編解碼器

+關注

關注
0

文章
230

瀏覽量
24033
FPS

FPS

+關注

關注
0

文章
35

瀏覽量
11880
NMS

NMS

+關注

關注
0

文章
9

瀏覽量
6004

原文標題：CVPR'24 | 百度開源DETRs在實時目標檢測中勝過YOLOs

文章出處：【微信號：3D視覺工坊，微信公眾號：3D視覺工坊】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

[灌水]如何提升網站在百度的排名

的搜索引擎！第一，關鍵詞的優化我想這是最基本的要求了，特別注意在title、description標簽中包含關鍵字對網站優化具有非常顯著的效果，可以參考關鍵詞百度前十名的網站的關鍵詞，頁面的內容要圍繞

發表于 11-09 16:55

下載百度到桌面_把百度下載到桌面

`現在教你怎么把百度下載到桌面,讓后你很方便就可以用百度。利用百度強大的平臺整合力，為您整合萬千熱門應用，給您一鍵觸達的超快感體驗。簡單可依賴的界面，簡潔易操作的設計，洗凈繁瑣只為您的快捷便利

發表于 10-26 17:16

百度開源富文本編輯器UEditor1.1.8正式版發布

UEditor是由百度 Web前端研發部開發的所見即所得的富文本在線編輯器，具有輕量，可定制，注重用戶體驗等特點，開源基于BSD協議，允許互聯網開發者自由傳播和使用代碼。百度UEditor的推出

發表于 01-10 15:00

巧借SEO查詢工具優化百度排名技術教程

很多時候，當我們想優化一個關鍵詞在百度排名中的位置時，我們必須先清楚：目標關鍵詞，現在的百度排名是多少位?打個比方，當你想優化“查詢工具”這

發表于 05-08 19:31

百度智能手環方案全開源包括硬件原理圖、BOM清單和源代碼

百度剛剛公布了一套智能手環的開源方案，是一整套的參考設計，包括硬件原理圖、BOM清單和源代碼。據百度官方說明百度云智能手環的開源方案是基于A

發表于 08-25 22:28

百度無人駕駛車北京完成路測

感知技術，實現高精度車輛探測識別、跟蹤、距離和速度估計、路面分割、車道線檢測，為自動駕駛的智能決策提供依據。雖然百度無人駕駛汽車已經完成如此高難度的路測，但是這不是意味著百度無人駕駛汽車很快就能進入市場。目前，該領域還存在很多空

發表于 12-12 16:53

百度地圖離線API調用教程

前言：對百度地圖的使用已經成為了我們生活中的一部分，對于習慣使用百度地圖的朋友來說更是不可或缺。但是如果沒有網絡的話就不能正常使用百度地圖的服務，制作一款離線地圖在這個時候就顯得尤為重

發表于 01-24 09:42

百度VS谷歌？不要開玩笑了！

原子鐘和GPS，打破了地理間隔，實現了全球規模具有一致性和實時性的數據庫。在Google之前，很多人認為這種系統不可能做出來，但Google做到了。然后我們來看一些搜索表現有谷歌的話你還用百度嗎？可惜

發表于 03-16 10:44

百度總裁：百度在人工智能領域已有重大突破

　　隨著阿法狗大戰李世石，人工智能引發越來越多的關注。百度總裁張亞勤28日表示，百度長期堅持技術創新，2015年研發投入超過100億元，目前在人工智能領域已有重大突破?！　垇喦?b class='flag-5'>在天津

發表于 07-01 15:22

轉：百度智能手環徹底開源

百度智能手環基于Nordic公司nRF51822芯片開發，芯片集成BLE藍牙4.0協議。使用LIS3DH作為加速度傳感器，進行運動和睡眠監測。 [size=0.83em]百度只能手環.jpg

發表于 08-01 10:26

簡單的鋰電池電量檢測電路從百度里下載的

簡單的鋰電池電量檢測電路從百度里下載的

發表于 06-04 09:43

百度智能手環方開源項目設計方案

百度云智能手環的開源方案是基于Apache2.0開源協議，開源內容包括硬件設計文檔，原理圖、ROM、通訊協議在內的全套方案，同時開放APP和云服務的免費使用。這套方案不僅能實現運動記錄

發表于 08-07 08:32

百度綠蘿算法

百度綠羅計算方法是百度搜索引擎在二月份上作弊計算方法。計算方法主要與超級鏈作弊作斗爭，例如超鏈接代理，銷售鏈接和購買鏈接。計算方法的推出不無效果阻止惡意交換鏈接，發表外部鏈接的行為，不無效果清理

發表于 10-10 09:47

如何把百度地圖導入自己做的通信軟件？

兄弟們有誰搞汽車導航的，我想把百度地圖導入自己做的通信軟件并且實現根據經緯度實時定位，哪位朋友做過給指點下

發表于 08-12 00:38

百度API調用（三）——語音識別精選資料推薦

需要的服務，簡單填寫應用描述即可創建6、創建完成后可以在應用列表中管理或者刪除你所創建的應用7、需要開啟對應服務才可以使用點擊立即領取即可獲得免費調用次數（十幾萬次對于個人學習使用足夠了）二、python實現百度語音識別實例：

發表于 08-18 06:44

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看

<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>