摘要
由于深度信息的缺失,從單目圖像估計物體的準確3D位置是一個具有挑戰性的問題。之前的工作表明,利用目標的關鍵點投影約束來估計多個候選深度可以提高檢測性能。然而,現有方法只能利用垂直邊緣作為深度估計的投影約束。所以這些方法只利用了少量的投影約束,產生的深度候選不足,導致深度估計不準確。論文提出了一種可以利用來自任何方向邊緣的密集投影約束方法。通過這種方式,論文使用了更多的投影約束并輸出了更多的候選深度。此外,論文提出了一個圖匹配加權模塊來合并候選深度。本文提出的方法名為DCD(Densely Constrained Detector),在 KITTI 和 WOD基準上實現了最先進的性能。
之前算法存在的問題在于它們的幾何約束不足。具體來說,一些現有的方法估計2D邊界框和3D邊界框的高度,然后利用2D到3D高度投影約束生成目標的深度候選。最終的深度是通過對所有候選深度進行加權來生成的。如下圖所示,該方法僅適用于垂直邊緣,這意味著它們只使用少量約束和3D先驗,導致深度估計的不準確。
方法
DCD的框架的如下圖所示。DCD使用單階段檢測器從單目圖像中檢測目標。論文提出了密集幾何約束深度估計器(DGDE,Densely Geometric-constrained Depth Estimator),它可以計算任何方向的2D-3D邊緣的深度。DGDE可以有效地利用目標的語義關鍵點并產生更多的深度候選。此外,論文利用回歸得到的2D邊緣、3D邊緣和方向作為2D-3D邊緣圖匹配網絡的輸入。所提出的圖匹配加權模塊 (GMW,Graph Matching Weighting module) 匹配每個2D-3D邊緣并輸出匹配分數。通過將多個深度與其相應的匹配分數相結合,論文最終可以為目標生成一個穩健的深度。
Geometric-based 3D Detection Definition
基于幾何的單目3D目標檢測通過2D-3D投影約束估計目標的位置。具體來說,網絡預測目標的尺寸(),旋轉角。假設一個目標有n個語義關鍵點,論文回歸第i個關鍵點在圖像坐標中的2D坐標和object frame中的3D坐標。object frame的坐標原點是目標的中心點。給定n個語義2D-3D關鍵點投影約束,解決3D目標位置是一個超定問題,它是用于將點云將從object frame轉換到camera frame的平移向量。生成每個目標的語義關鍵點的方法改編自。論文通過PCA建立了一些汽車模型,并通過從點云和2D mask中分割出來的3D點云來細化模型。在獲得關鍵點后,就可以使用DGDE從關鍵點投影約束中估計目標的深度。
Densely Geometric-constrained Depth Estimation
雖然以前的深度估計方法[51]只考慮了垂直邊緣,但DGDE可以處理任意方向的邊緣。因此,論文能夠利用更多的約束來估計每個深度候選的深度。
該方法基于關鍵點從3D空間到2D圖像的投影關系。第i個關鍵點的3D坐標在object frame中定義,并通過以下等式投影到2D圖像平面上:
其中是第i個關鍵點的深度,K是相機內參,K,R,t 表示為:
通過上述兩式,第i個關鍵點的投影約束方程記為:
第j個關鍵點投影約束方程與上式類似,進一步可以從第i個、第 j 個關鍵點投影約束中得到深度估計:
這個方程表明深度可以通過任意方向邊緣的投影約束來計算。
給定n個關鍵點,論文生成m=n(n-1)/2 個深度候選。與此同時,不可避免地會遇到一些低質量的深度候選。因此,需要適當的加權方法來集成這些深度候選。
Depth Weighting by Graph Matching
利用DGDE估計目標的深度候選時,目標的最終深度可以根據根據估計質量進行加權:
接下來介紹論文提出的新的加權方法——Graph Matching Weighting module (GMW)。
Graph Construction and Edge Feature extraction:論文構造了2D關鍵點圖和3D關鍵點圖。3D關鍵點圖與2D關鍵點圖基本一致,唯一的區別是頂點坐標是2D坐標還是3D坐標。2D和3D邊緣特征提取器[47]如下所示:
FC、CN、BN、ReLU 分別表示全連接層、Context Normalization [47]、Batch Normalization 和 ReLU。值得一提的是,Context Normalization 提取了所有邊的全局信息。
Graph matching layer:給定提取的2D和3D邊緣特征,根據在邊緣s上的2D特征和邊緣t上的3D特征之間的L2距離計算如下損失:
然后論文將M作為Sinkhorn layer[4]的輸入來獲得分配矩陣P。Sinkhorn layer通過最小化下述目標函數來迭代優化P:
Loss function:設計如下所示的回歸損失來監督最終的加權深度,并使用分類損失來監督圖匹配:
實驗結果
KITTI上的實驗結果,優勢比較明顯。
可視化:
更多的實驗結果如下表所示:
消融實驗
DCD可以比基線更準確地估計深度。
GMW和邊數量的消融實驗
關于DCD和AutoShape的討論
盡管DCD和AutoShape都利用多個關鍵點來估計目標的位置,但存在如下關鍵差異:
AutoShape直接使用所有2D-3D關鍵點投影約束來求解對象目標深度。DCD則從每個邊緣約束中求解一個深度候選。因此,DCD的邊緣約束不僅數量多,而且比關鍵點約束的階數更高;
審核編輯:郭婷
-
檢測器
+關注
關注
1文章
812瀏覽量
47318 -
3D
+關注
關注
9文章
2760瀏覽量
106516
原文標題:ECCV 2022 | 用于單目3D目標檢測的密集約束深度估計器
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論