<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于PoseDiffusion相機姿態估計方法

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-07-23 15:22 ? 次閱讀

介紹

一般意義上,相機姿態估計通常依賴于如手工的特征檢測匹配、RANSAC和束調整(BA)。在本文中,作者提出了PoseDiffusion,這是一種新穎的相機姿態估計方法,它將深度學習與基于對應關系的約束結合在一起,因此能夠在稀疏視圖和密集視圖狀態下以高精度重建相機位置,他們在概率擴散框架內公式化了SfM問題,對給定輸入圖像的相機姿態的條件分布進行建模,用Diffusion模型來輔助進行姿態估計。在兩個真實世界的數據集上證明了其方法比經典的SfM中的姿態估計和基于學習的方法有顯著的改進,同時可以在不需要進一步訓練的情況下在數據集之間進行泛化。

明確一下,該方法同時估計相機內外參,不同于視覺定位(估計相機外參,即旋轉矩陣R和平移向量t)。

0cb54d14-2752-11ee-962d-dac502259ad0.png

什么是擴散模型?

擴散模型是一類生成模型,受非平衡熱力學的啟發,通過擴散步驟的馬爾可夫鏈近似數據分布,在圖像、視頻,3D點云生成方面都取得了令人印象深刻的成果。它們能夠準確生成各種高質量的樣本。

擴散模型的目標是通過捕捉從數據到簡單分布的擴散過程的逆過程來學習復雜的數據分布,通常是通過加噪聲和去噪來實現。加噪聲處理通過一系列步驟將數據樣本x逐漸轉換為噪聲,然后對模型進行訓練以學習去噪過程。

去噪擴散概率模型(DDPM)專門將噪聲處理定義為高斯。給定T個步驟的方差表,噪聲變換定義如下:

方差表被設置為使得xT遵循各向同性高斯分布,即。定義αt=1?βt和,則存在一個閉式解,在給定數據x0的情況下直接對xt進行采樣:

如果βt足夠小,則反向仍然是高斯的。因此,它可以通過模型Dθ來近似:

為什么可以使用擴散模型來進行姿態估計任務?

一方面擴散模型在建模復雜分布(例如,在圖像、視頻和點云上)方面都取得了成功,另一方面擴散模型的隨機采樣過程已被證明可以有效地駕馭復雜分布的對數似然,因此非常適合復雜的BA優化。擴散過程的另一個好處是,它可以一步一步地訓練,而不需要在整個優化過程中展開梯度。

方法

基于擴散模型的Bundle Adjustment(BA)

PoseDiffusion對給定圖像I的樣本x(即相機參數)的條件概率分布p(x|I)進行建模。根據擴散模型(如上所述),通過去噪過程對p(x| I)進行建模,更具體地說,p(x|I)首先通過在N個場景的大訓練集 of 上訓練擴散模型Dθ來估計,該場景具有真實值圖像批Ij和它們的相機參數xj。在推斷時,對于一組新的觀測圖像I,對p(x|I)進行采樣,以估計相應的相機參數x。注意,與獨立于I的噪聲處理不同,去噪處理以輸入圖像集I為條件,即

將去噪Dθ實現為transfomer Trans,

這里,Trans接受輸入圖像Ii的有噪姿態元組、擴散時間t和特征嵌入。去噪器輸出相應的去噪相機參數的元組,在訓練時,Dθ受到監督,具有以下去噪損失:

訓練后的去噪器Dθ被用來對pθ(x|I)進行采樣,這解決了在給定輸入圖像I的情況下推斷相機參數x的任務。更詳細地說,在DDPM采樣之后,從隨機相機開始,在每次迭代中,下一步通過下式采樣:

幾何引導的采樣

前饋網絡需要將圖像直接映射到相機參數的空間??紤]到深度網絡在回歸精確量(即旋轉矩陣和平移向量)方面很糟糕,通過利用兩視圖幾何約束,提取場景圖像之間可靠的2D對應關系,并指導DDPM采樣迭代以便估計的姿態滿足對應關系誘導的雙視圖極線約束。

0cc03ab2-2752-11ee-962d-dac502259ad0.png

具體來說,讓表示一對場景圖像的圖像點之間的一組二維對應,表示相應的相機姿勢。通過Sampson Epipolar Error 來評估相機和2D對應關系之間的兼容性:

遵循分類器diffusion指導來引導采樣朝著最小化Sampson極線誤差的解決方案進行,因此這滿足了圖像-圖像間的極線約束。

在每次采樣迭代中,分類器引導以xt條件引導分布p(I|xt)的梯度擾動預測的平均值:

假設攝像機x上的一致先驗允許將p(I|xt)建模為成對Sampson誤差上的獨立指數分布的乘積:

當所有圖像對之間的Sampson誤差為0(即滿足所有核約束)時,可以獲得最終模型。

實驗

在兩個真實世界的數據集上進行了實驗,討論了模型的設計選擇,并與之前的工作進行了比較。

考慮了兩個具有不同統計數據的數據集。第一個是CO3Dv2,其中包含50個MS-COCO類別中的物體的大約37k個視頻。

其次,對RealEstate10k進行了評估,它包括捕捉房地產內部和外部的80k YouTube剪輯視頻。

baseline:

選擇COLMAP作為密集姿態估計基線。除了利用RANSAC匹配的SIFT的經典版本外,還對COLMAP+SPG進行了基準測試,它建立在與SuperGlue匹配的SuperPoints的基礎上,還與RelPose進行了比較,RelPose是當前稀疏姿態估計的最先進技術。最后為了理解幾何引導采樣的影響,在沒有GGS的情況下實現了學習去噪器。

0cefd6be-2752-11ee-962d-dac502259ad0.png0d1f0efc-2752-11ee-962d-dac502259ad0.png0d362eca-2752-11ee-962d-dac502259ad0.png

還評估了不同方法泛化到不同數據的能力。首先,在RelPose之后,對來自CO3Dv2的41個訓練類別進行訓練,并對剩余的10個保留類別進行評估。其方法優于所有基線,表明具有優越的泛化性。

0d3feb90-2752-11ee-962d-dac502259ad0.png

同時該方法還可以用來進行新視圖合成,用來幫助nerf。

0d615c08-2752-11ee-962d-dac502259ad0.png

總結:

提出了Pose diffusion,這是一種學習的相機估計器,同時具有傳統極線幾何約束和擴散模型的能力。展示了擴散框架如何與相機參數估計任務兼容。這一經典任務的迭代性質反映在去噪擴散公式中。此外,圖像對之間的點匹配約束可以用于指導模型并細化最終預測。這改進了傳統的SfM方法,如COLMAP,以及學習的方法。展示了在姿態預測精度以及新的視圖合成(COLMAP當前最流行的應用之一)任務方面的改進。
責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 相機
    +關注

    關注

    4

    文章

    1266

    瀏覽量

    52707
  • 模型
    +關注

    關注

    1

    文章

    2790

    瀏覽量

    47920
  • 數據集
    +關注

    關注

    4

    文章

    1182

    瀏覽量

    24441

原文標題:ArXiv2023 | PoseDiffusion:基于Diffusion的姿態估計算法,來自Meta AI

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于姿態校正的人臉檢測方法

    本人提出了一種基于姿態校正的人臉檢測方法,在此基礎上,提出姿態角度估計目標函數,并討論了2種尋優方法,該
    發表于 04-13 17:24 ?30次下載
    基于<b class='flag-5'>姿態</b>校正的人臉檢測<b class='flag-5'>方法</b>

    針對姿態傳感器的姿態估計方法的詳細資料說明免費下載

    針對姿態傳感器提供不同采樣率和時延的矢量測量離散時間樣本的情況,提出了一種姿態估計方法。所提出的方法基于輸出預測器和
    發表于 12-11 08:00 ?4次下載

    3D姿態估計 時序卷積+半監督訓練

    在這項工作中,視頻中的3D姿態可以通過全卷積模型來估計,具體是在二維關鍵點上通過空洞時間卷積的模型得到3D姿態。我們還介紹了一種不...
    的頭像 發表于 12-08 22:54 ?726次閱讀

    一種采用深度殘差網絡的頭部姿態估計方法

    為提高真實場景下頭部姿態估計的準確性,提出一種采用深度殘差網絡的頭部姿態估計方法。將深度殘差網絡 Restnetl01作為主干網絡,引入優化
    發表于 03-16 11:27 ?8次下載
    一種采用深度殘差網絡的頭部<b class='flag-5'>姿態</b><b class='flag-5'>估計</b><b class='flag-5'>方法</b>

    基于深度學習的二維人體姿態估計方法

    基于深度學習的二維人體姿態估計方法通過構建特定的神經網絡架構,將提取的特征信息根據相應的特征融合方法進行信息關聯處理,最終獲得人體姿態
    發表于 03-22 15:51 ?5次下載
    基于深度學習的二維人體<b class='flag-5'>姿態</b><b class='flag-5'>估計</b><b class='flag-5'>方法</b>

    基于深度學習的二維人體姿態估計算法

    近年來人體姿態估計作為計算機視覺領域的熱點,在視頻監控、人機交互、智慧校園等領域具有廣泛的應用前景。隨著神經網絡的快速發展,采用深度學習方法進行二維人體姿態
    發表于 04-27 16:16 ?7次下載
    基于深度學習的二維人體<b class='flag-5'>姿態</b><b class='flag-5'>估計</b>算法

    基于Bagging-SVM集成分類器的頭部姿態估計方法

    針對現有常用分類器性能不能滿足頭部姿態估計對準確率的要求,以及光照變化影響頭部姿態估計準確率的問題,提出了一種基于 Bagging-SVM集成分類器的頭部
    發表于 05-07 10:11 ?4次下載

    基于面部特征點定位的圖像人臉姿態估計方法

    針對目前基于學習的姿態估計方法對訓練樣本及設備要求較高的問題,提出一種基于面部特征點定位的無需訓練即能估計單幅圖像中人臉姿態
    發表于 05-24 15:43 ?14次下載

    基于編解碼殘差的人體姿態估計方法

    人體姿態估計尤其是多人姿態估計逐漸滲透到教育、體育等各個方面,精度高、輕量級的多人姿態估計更是當
    發表于 05-28 16:35 ?2次下載

    基于OnePose的無CAD模型的物體姿態估計

    基于CAD模型的物體姿態估計:目前最先進的物體6DoF姿態估計方法可以大致分為回歸和關鍵點技術。第一類
    的頭像 發表于 08-10 11:42 ?1329次閱讀

    一種基于去遮擋和移除的3D交互手姿態估計框架

    與被充分研究的單手姿態估計任務不同,交互手3D姿態估計是近兩年來剛興起的學術方向?,F存的工作會直接同時預測交互手的左右兩手的姿態,而我們則另
    的頭像 發表于 09-14 16:30 ?750次閱讀

    Meta研究:基于頭顯攝像頭進行姿態估計方法和優缺點

    AR/VR體驗需要由用戶姿態的顯式表征所驅動。特別地,其需要從設備的角度估計用戶的姿態,這隱含地對應于以自我為中心的角度,亦即與用戶3D頭部和身體姿態相應對的“Egopose/自我
    的頭像 發表于 05-31 14:49 ?542次閱讀
    Meta研究:基于頭顯攝像頭進行<b class='flag-5'>姿態</b><b class='flag-5'>估計</b>的<b class='flag-5'>方法</b>和優缺點

    AI技術:一種聯合迭代匹配和姿態估計框架

    由于噪聲和退化,并非所有正確匹配都能給出良好的姿態。之前的操作僅保證具有判別性高的描述子的特征點有更高的匹配分數,并且首先被識別以參與姿態估計,但忽略了魯棒姿態
    發表于 07-18 12:58 ?353次閱讀
    AI技術:一種聯合迭代匹配和<b class='flag-5'>姿態</b><b class='flag-5'>估計</b>框架

    AI深度相機-人體姿態估計應用

    我們非常高興地發布一個新的代碼示例,展示虹科AI深度相機SDK的驚人功能。只需6行源代碼,您就可以實時準確地估計和跟蹤人體姿態!我們最新的代碼示例使用AI機器學習技術來識別和跟蹤人體的關鍵點,使您能
    的頭像 發表于 07-31 17:42 ?714次閱讀
    AI深度<b class='flag-5'>相機</b>-人體<b class='flag-5'>姿態</b><b class='flag-5'>估計</b>應用

    基于飛控的姿態估計算法作用及原理

    ? 姿態估計的作用? 姿態估計是飛控算法的一個基礎部分,而且十分重要。為了完成飛行器平穩的姿態控制,首先需要精準的
    發表于 11-13 11:00 ?467次閱讀
    基于飛控的<b class='flag-5'>姿態</b><b class='flag-5'>估計</b>算法作用及原理
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>