來自蘇黎世聯邦理工學院和 Meta 虛擬現實實驗室的研究者聯合提出了一個用稀疏運動傳感設備進行全身位姿估計與追蹤的方案。
近日,Meta Connect 大會上「有腿」的虛擬世界人物形象引起機器學習和VR社區的高度關注。人們意識到,在構建元宇宙的美好愿景中,虛擬形象的生動逼真是非常重要的。
Meta Connect 大會上扎克伯格展示了自己的虛擬形象。
以前,虛擬人物形象通常只有上半身,這嚴重破壞了用戶的沉浸感,降低了整體的使用體驗。
為了解決這個問題,來自蘇黎世聯邦理工學院 (ETH Zurich) 和 Meta 虛擬現實實驗室 (Reality Labs at Meta) 的學者聯手提出了 AvatarPoser,一個用稀疏運動傳感設備進行全身位姿估計與追蹤的方案。該工作被計算機視覺頂會 ECCV 2022 接收,論文和代碼均已開源。
論文鏈接:https://arxiv.org/abs/2207.13784
代碼鏈接:https://github.com/eth-siplab/AvatarPoser
研究背景
當前的混合現實頭戴式顯示器和手持控制器可以追蹤用戶在現實世界中的頭部和手的位置和姿勢,以便用戶在增強現實和虛擬現實場景中進行交互。雖然這足以支持用戶提供輸入信息,但是通常只將用戶的虛擬形象局限于上半身。因此,當前 VR 系統只能提供浮動的虛擬形象,其局限性在協作環境中尤為明顯。為了使用稀疏輸入源估計全身姿勢,先前的工作在腰或腿腳位置加入了額外的追蹤器和傳感器,但這增加了設備的復雜性并限制了實際應用的便攜性。
AvatarPoser 是第一個基于深度學習來通過用戶頭部和手部的運動輸入來預測世界坐標中的全身姿態的方法。該研究用 Transformer 編碼器從輸入信號中提取深度特征,并將人體的全局運動與局部關節運動解耦,以引導整體的姿態估計。此外,作者還將 Transformer 和逆運動學結合,來優化手臂關節的位置,以匹配手的真實位置。在作者的實驗評估中,AvatarPoser 在大型動作捕捉數據集 AMASS 的評估中取得了最佳結果。該方法的極快的推理速度也支持實時操作,提供了一個實用的接口來支持元界應用的整體的虛擬人表示和控制。
相關工作
文章和此前的相關工作 Final IK, LoBSTr (Eurographics 2021), CoolMoves (IMWUT 2021), VAE-HMD (ICCV 2021)進行了比較。Final IK 是基于物理模型的標準商業解決方案。然而,它只能給出中性的下半身位置,因此產生了看起來不真實的運動預測。LoBSTr 使用 GRU 模型根據頭部、手部和腰部的跟蹤信號預測下半身,并通過 IK 求解器計算上半身姿勢。
但是,這種方法需要額外的腰部跟蹤器。CoolMoves 是第一個只使用來自頭戴式設備和手控制器的輸入來估計全身姿勢的方法。然而,所提出的基于 KNN 的方法只能在小數據中插值估計姿勢,且需要運動類型已知。VAE-HMD 是最近提出的一種基于 VAE 的方法,可以從稀疏輸入中生成合理且多樣化的身體姿勢。然而,該方法所使用的信息都是相對于與腰部位置的,這相當于使用了腰部的位置作為第四個輸入。因此,用稀疏傳感設備追蹤虛擬人全身的方法主要存在三個局限性:
(1) 大多數通用商用程序使用逆向運動學(IK)來估計全身姿勢。這通常會產生看似靜態且不自然的人體運動,尤其是對于遠離運動鏈中已知關節位置的那些關節。?
(2) 盡管目標是僅使用來自頭部和手部的輸入,但現有的基于深度學習的方法隱含地使用了腰部姿勢的信息。然而,大多數便攜式混合現實系統無法進行腰部跟蹤,這增加了全身估計的難度。
(3) 即使使用腰部追蹤設備,先前方法估計的下半身動畫也會經常包含抖動和滑動偽影。這些往往是由腰部跟蹤器的無意運動引起的,該跟蹤器連接在腹部,因此與實際腰部關節的移動方式不同。
方法介紹
AvatarPoser 的整體框架如圖 2 所示。這是一個時間序列的網絡結構,它將來自稀疏跟蹤器的前 N - 1 幀和當前第 N 幀的 6D 信號作為輸入,并預測人體的全局方向以及每個關節相對于其父節點的局部相對旋轉。具體來說,AvatarPoser 由四個組件組成:Transformer 編碼器、穩定器、正向運動學 (FK) 模塊和逆向運動學 (IK) 模塊。作者設計的網絡使得每個組件都可以解決特定的任務。
Transformer 編碼器: 由于 Transformer 在效率、可擴展性和長距離建模能力方面具有優勢,本文的方法建立在其基礎上,從時間序列數據中提取有用的信息,用自注意力 (self-attention) 機制來清楚地捕獲數據中的全局遠程依賴關系。具體來說,給定輸入信號,首先應用線性嵌入將特征豐富到 256 維。接下來,Transformer 編碼器從頭顯和手部的先前時間步長中提取深度姿勢特征,這些特征分別由用于全局運動預測的穩定器和用于局部姿勢估計的 2 層多層感知器 (MLP) 共享。Transformer 中的 head 的數量設置為 8,自注意力層的數量設置為 3。
穩定器 Stabilizer: 穩定器是一個 2 層多層感知機,它接受來自 Transformer 編碼器生成的 256 維姿勢特征作為輸入,負責輸出人體的全局運動方向(也是腰部的旋轉方向)。因此,穩定器通過將全局方向與姿勢特征解耦并通過身體運動鏈從頭部位置獲得全局平移來負責全局運動導航。盡管通過運動鏈從給定的頭部姿勢計算全局方向也是一種只管的解決方案,但用戶的頭部旋轉通常獨立于其他關節的運動, 因此這種方法會導致估計的整體方向對頭部的旋轉很敏感。比如考慮一下用戶站著不動,只轉動頭部的場景,全局方向很可能會有很大的誤差,這往往會導致生成的虛擬人浮動在空中,如圖 3 的左邊圖所示。
正向運動學 (FK) 模塊:正向運動學 (FK) 模塊將預測的局部旋轉作為輸入,計算給定人體骨骼模型的所有關節位置。雖然基于旋轉的方法無需重新投影到骨架約束以避免骨骼拉伸和無效配置即可提供穩健的結果,但它們容易沿著運動鏈累積位置誤差。在沒有 FK 模塊的情況下訓練網絡只能最小化關節旋轉角度,但不會在優化過程中考慮實際產生的關節位置。
逆向運動學模塊:基于旋轉的姿態估計的一個主要問題是末端執行器的預測可能會偏離它們的實際位置——即使末端執行器用作已知輸入,例如 VR 場景中的手。這是因為對于末端執行器,誤差會沿著運動鏈累積。然而,準確估計末端執行器的位置在混合現實中尤為重要,因為手通常用于提供用戶的輸入信息,即使是位置上的小誤差也會嚴重干擾與虛擬界面元素的交互。為了解決這個問題,本文采用了一個單獨的 IK 模塊,該算法根據已知的手部位置調整手臂肢體位置。具體來說,在網絡產生輸出后,IK 模塊會調整肩部和肘部關節的估計旋轉角度,以減少手部位置的誤差,如圖 3 的右圖所示。
實驗
作者評估了三個和四個輸入的不同方法。評估指標是平均每個關節旋轉誤差 (MPJRE)、位置誤差(MPJPE) 和速度誤差(MPJVE)。實驗表明,AvatarPoser 在兩種設置中都實現了 SOTA 的性能。
表 1 報告了四個和三個輸入的所考慮指標(MPJRE、MPJPE 和 MPJVE)的數值結果??梢钥闯?,AvatarPoser 在所有三個指標上都取得了最佳結果,并且顯著優于所有其他方法, VAE-HMD 在 MPJPE 上取得了第二好的性能,緊隨其后的是 CoolMoves。Final IK 在 MPJPE 和 MPJRE 上給出了最差的結果,因為它為了優化末端執行器的位置和姿勢,沒有考慮到其他身體關節的位置和平滑度。因此,使用 Final IK 進行上身姿態估計的 LoBSTr 的性能也很低。作者表示這顯示了用數據驅動方法從現有動作捕捉數據集中學習人體運動的價值。但是,這并不意味著傳統的優化方法沒有用,作者的消融研究中展示了逆向運動學與深度學習相結合如何提高手部位置的準確性。
為了進一步評估提出的方法的泛化能力,作者在不同方法之間進行了跨數據集評估。為此,作者在兩個子集上進行訓練,在另一個子集進行測試。表 2 顯示了在 CMU、BMLrub 和 HDM05 數據集上測試的不同方法的實驗結果。AvatarPoser 再次在所有三個數據集中的所有評估指標上都取得了最好的結果。
作者還對不同子模塊進行消融研究,并在表 3 中提供結果。實驗是在與表 2 中的 HDM05 相同的測試集上進行的。評價指標為 MPJRE [?]和 MPJPE [cm] 。除了全身關節的位置誤差外,作者還計算了手部位置的平均誤差,以體現 IK 模塊如何幫助改善手的位置。
此外,作者還給出了方法對比的視頻,有移動,鍛煉,投擲 3 個示例,黃顏色代表誤差,可以說 AvatarPoser 的結果是一騎絕塵,非常絲滑了!
AvatarPoser 也可以在流行的 VR 系統上很好地工作,盡管訓練時只使用了合成的動作捕捉數據。作者在 VIVE Pro 頭顯和兩個控制器上進行測試,如視頻所示,AvatarPoser 對各種運動類型(如步行、坐著、站立、跑步、跳躍和蹲下)都具有穩定優秀的性能。
總結
這篇論文展示了全新的基于 Transformer 的方法 AvatarPoser,僅通過混合現實頭顯和手持控制器的運動信號來估計真實的人體姿態。AvatarPoser 通過將全局運動信息與學習的姿勢特征解耦并使用它來引導姿態估計,在沒有腰部信號的情況下獲得了穩健的估計結果。此外,通過將基于學習的方法與傳統的基于模型的優化相結合,該方法在全身風格的真實感和準確的手控之間保持平衡。AvatarPoser 在 AMASS 數據集上的大量實驗表明其不僅取得了 SOTA 的性能,更為實際的 VR/AR 應用提供了一個實用的解決方案。
編輯:黃飛
?
評論
查看更多