一、研究背景
盡管3D和視頻生成取得了飛速的發展,由于缺少高質量的4D數據集,4D生成始終面臨著巨大的挑戰。過去幾篇工作嘗試了Text-To-4D的任務,但依然存在兩個主要問題:
1.由于輸入依賴于單視角的圖片或者簡單的文本描述,并不能保證得到精準的4D結果,需要花費大量的時間進行反復調整。
2.盡管采用了Hexplane作為4D的表征,基于NeRF的方法在高分辨率和長視頻上的渲染所需要的計算時間和顯存占用是難以接受的。即使采用了一個超分辨的后處理網絡,依然會有模糊和閃爍的結果。
為了解決上述問題,4DGen定義了“Grounded 4D Generation“新型任務形式,并且設計了新的算法框架實現高質量的4D內容生成。
二、任務定義
過往的4D生成工作是“one click“的方式,并不能對生成的結果進行有效的控制。4DGen提出了“Grounded 4D Generation“的形式,通過利用視頻序列和可選的3D模型作為4D生成的控制信息,可以實現更為精準的4D內容生成。用戶可通過輸入視頻序列或3D模型來約束4D結果的運動和外觀;當用戶僅提供單張圖片作為輸入時,可借助預訓練好的視頻生成模型來得到視頻序列;當用戶未提供3D模型時,可通過單張圖片重建3D模型來作為起始點。
三、方法介紹
4DGen框架的輸入起始點為用戶給定或者模型生成的視頻序列,對于任意的單張圖片,借助多視角生成模型(multi-view diffusion model),可以得到不同視角的圖片。4DGen通過對第一幀多視圖進行三維重建,得到初始的靜態3D Gaussians作為4D生成的起始點。
由于4D數據的匱乏,需要盡可能的從先驗模型中蒸餾信息。4DGen將每一幀生成的多視圖作為2D偽標簽,并且采用多視圖生成的點云作為3D點的偽標簽來監督訓練過程。
因為多視圖生成具有ill-posed的特點,得到的偽標簽在不同視角之間,不同時序之間存在不連續性,需要引入時間和空間上的一致性損失函數進行約束。相較于擬合多視圖DDIM采樣得到的圖片,score distillation sampling(SDS)是根據先驗的擴散模型對場景表達進行似然估計。
4DGen依據正面視角計算任意視角圖片在Zero123模型上的SDS損失,用于提升空間上的連續性。為了緩解閃爍問題,4DGen引入了無監督的時間平滑約束。通過計算平面的平滑損失和Gaussians不同時刻的平滑損失,有效提升了時間上的一致性。
四、實施細節
4DGen的 4D表達采用了4D Gaussian Spaltting的方式,通過一個多分辨率Hexplane對每個Gaussian進行編碼。將6個時空平面的特征進行相加,并經過一個額外的MLP解碼得到對應Gaussian在不同時刻的位置偏移量。
訓練上采用三階段方式,第一階段對場景進行靜態建模,第二階段利用2D和3D的偽標簽進行動態場景的初步建模,第三建模利用平滑損失增強模型的細節和連續性。
所有實驗可以在一張RTX3090上完成,對于2.5萬個Gaussians只需45分鐘的訓練,對于9萬個Gaussians訓練2小時可以得到更加好的細節效果。
五、實驗結果
4DGen可以實現不同視角、不同時間的高質量圖片渲染。相較于對比方法在細節表達、噪聲去除、顏色還原、時空連續性等方面有顯著提升。更多視覺效果可以參考項目主頁。
量化對比上,4DGen采用了不同時序圖片和參考圖片的CLIP距離來衡量生成質量,采用CLIP-T衡量不同時間下的圖像連續性。4DGen在多項指標上明顯優于過往方法。
六、總結
4DGen定義了” Grounded 4D Generation“的任務形式,通過視頻序列和可選3D模型的引入提升了4D生成的可控性。通過高效的4D Gaussian Splatting的表達,2D和3D偽標簽的監督和時空的連續性約束,使得4DGen可以實現高分辨率、長時序的高質量的4D內容生成。
審核編輯:劉清
-
編解碼
+關注
關注
1文章
138瀏覽量
19410 -
SDS
+關注
關注
0文章
47瀏覽量
15303 -
3D模型
+關注
關注
1文章
70瀏覽量
15606 -
MLP
+關注
關注
0文章
56瀏覽量
4110
原文標題:3DGS殺瘋了!4DGen:基于動態3D高斯的可控4D生成新工作
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論