<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Meta提出Make-A-Video3D:一行文本,生成3D動態場景!

CVer ? 來源:機器之心 ? 2023-03-24 10:47 ? 次閱讀

不再需要任何 3D 或 4D 數據,來自 Meta 的研究者首次提出了可以從文本描述中生成三維動態場景的方法 MAV3D (Make-A-Video3D)。

僅輸入一行文本,就能生成 3D 動態場景?

沒錯,已經有研究者做到了??梢钥闯鰜?,目前的生成效果還處于初級階段,只能生成一些簡單的對象。不過這種「一步到位」的方法仍然引起了大量研究者的關注:

023b7032-c9bc-11ed-bfe3-dac502259ad0.gif

在最近的一篇論文中,來自 Meta 的研究者首次提出了可以從文本描述中生成三維動態場景的方法 MAV3D (Make-A-Video3D)。

04995f24-c9bc-11ed-bfe3-dac502259ad0.png

Text-To-4D Dynamic Scene Generation

論文鏈接:https://arxiv.org/abs/2301.11280

項目鏈接:https://make-a-video3d.github.io/

具體而言,該方法運用 4D 動態神經輻射場(NeRF),通過查詢基于文本到視頻(T2V)擴散的模型,優化場景外觀、密度和運動的一致性。任意機位或角度都可以觀看到提供的文本生成的動態視頻輸出,并可以合成到任何 3D 環境中。 MAV3D 不需要任何 3D 或 4D 數據,T2V 模型只對文本圖像對和未標記的視頻進行訓練。

04d5c93c-c9bc-11ed-bfe3-dac502259ad0.png

讓我們看一下 MAV3D 從文本生成 4D 動態場景的效果:

0516304e-c9bc-11ed-bfe3-dac502259ad0.gif

05d3d46e-c9bc-11ed-bfe3-dac502259ad0.gif

此外,它也能從圖像直接到 4D,效果如下:

065e0382-c9bc-11ed-bfe3-dac502259ad0.gif

06e2b55a-c9bc-11ed-bfe3-dac502259ad0.gif

研究者通過全面的定量和定性實驗證明了該方法的有效性,先前建立的內部 baseline 也得到了改進。據悉,這是第一個根據文本描述生成 3D 動態場景的方法。方法

該研究的目標在于開發一項能從自然語言描述中生成動態 3D 場景表征的方法。這極具挑戰性,因為既沒有文本或 3D 對,也沒有用于訓練的動態 3D 場景數據。因此,研究者選擇依靠預訓練的文本到視頻(T2V)的擴散模型作為場景先驗,該模型已經學會了通過對大規模圖像、文本和視頻數據的訓練來建模場景的真實外觀和運動。

從更高層次來看,在給定一個文本 prompt p 的情況下,研究可以擬合一個 4D 表征08b1b28c-c9bc-11ed-bfe3-dac502259ad0.png,它模擬了在時空任意點上與 prompt 匹配的場景外觀。沒有配對訓練數據,研究無法直接監督08ceee24-c9bc-11ed-bfe3-dac502259ad0.png的輸出;

然而,給定一系列的相機姿勢08e3ae72-c9bc-11ed-bfe3-dac502259ad0.png就可以從08f7c33a-c9bc-11ed-bfe3-dac502259ad0.png渲染出圖像序列090a8fe2-c9bc-11ed-bfe3-dac502259ad0.png092017c2-c9bc-11ed-bfe3-dac502259ad0.png并將它們堆疊成一個視頻 V。然后,將文本 prompt p 和視頻 V 傳遞給凍結和預訓練的 T2V 擴散模型,由該模型對視頻的真實性和 prompt alignment 進行評分,并使用 SDS(得分蒸餾采樣)來計算場景參數 θ 的更新方向。

上面的 pipeline 可以算作 DreamFusion 的擴展,為場景模型添加了一個時間維度,并使用 T2V 模型而不是文本到圖像(T2I)模型進行監督。然而,要想實現高質量的文本到 4D 的生成還需要更多的創新:

第一,需要使用新的、允許靈活場景運動建模的 4D 表征;

第二,需要使用多級靜態到動態優化方案來提高視頻質量和提高模型收斂性,該方案利用幾個 motion regularizer 來生成真實的運動;

第三,需要使用超分辨率微調(SRFT)提高模型的分辨率。

具體說明見下圖:

09510f76-c9bc-11ed-bfe3-dac502259ad0.png

實驗

在實驗中,研究者評估了 MAV3D 從文本描述生成動態場景的能力。首先,研究者評估了該方法在 Text-To-4D 任務上的有效性。據悉,MAV3D 是首個該任務的解決方案,因此研究開發了三種替代方法作為基線。其次,研究者評估了 T2V 和 Text-To-3D 子任務模型的簡化版本,并將其與文獻中現有的基線進行比較。第三,全面的消融研究證明了方法設計的合理性。第四,實驗描述了將動態 NeRF 轉換為動態網格的過程,最終將模型擴展到 Image-to-4D 任務。

指標

研究使用 CLIP R-Precision 來評估生成的視頻,它可以測量文本和生成場景之間的一致性。報告的指標是從呈現的幀中檢索輸入 prompt 的準確性。研究者使用 CLIP 的 ViT-B/32 變體,并在不同的視圖和時間步長中提取幀,并且還通過詢問人工評分人員在兩個生成的視頻中的偏好來使用四個定性指標,分別是:(i) 視頻質量;(ii) 忠實于文本 prompt;(iii) 活動量;(四) 運動的現實性。研究者評估了在文本 prompt 分割中使用的所有基線和消融。

圖 1 和圖 2 為示例。要想了解更詳細的可視化效果,請參見 make-a-video3d.github.io。

098d529c-c9bc-11ed-bfe3-dac502259ad0.png

結果

表 1 顯示了與基線的比較(R - 精度和人類偏好)。人工測評以在特定環境下與該模型相比,贊成基線多數票的百分比形式呈現。

09deb010-c9bc-11ed-bfe3-dac502259ad0.png

表 2 展示了消融實驗的結果:

0a038eee-c9bc-11ed-bfe3-dac502259ad0.png

實時渲染

使用傳統圖形引擎的虛擬現實和游戲等應用程序需要標準的格式,如紋理網格。HexPlane 模型可以輕易轉換為如下的動畫網格。首先,使用 marching cube 算法從每個時刻 t 生成的不透明度場中提取一個簡單網格,然后進行網格抽?。榱颂岣咝剩┎⑶胰コ≡肼曔B接組件。XATLAS 算法用于將網格頂點映射到紋理圖集,紋理初始化使用以每個頂點為中心的小球體中平均的 HexPlane 顏色。最后,為了更好地匹配一些由 HexPlane 使用可微網格渲染的示例幀,紋理會被進一步優化。這將產生一個紋理網格集合,可以在任何現成的 3D 引擎中回放。

圖像到 4D

圖 6 和圖 10 展示了該方法能夠從給定的輸入圖像產生深度和運動,從而生成 4D 資產。

0a21de6c-c9bc-11ed-bfe3-dac502259ad0.png

0a5156a6-c9bc-11ed-bfe3-dac502259ad0.png

0a8d6b96-c9bc-11ed-bfe3-dac502259ad0.png

0acb4894-c9bc-11ed-bfe3-dac502259ad0.png

0af39d76-c9bc-11ed-bfe3-dac502259ad0.png

更多研究細節,可參考原論文。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 3D
    3D
    +關注

    關注

    9

    文章

    2768

    瀏覽量

    106572
  • Meta
    +關注

    關注

    0

    文章

    186

    瀏覽量

    11186
  • 三維動態管理

    關注

    0

    文章

    2

    瀏覽量

    713

原文標題:Meta提出Make-A-Video3D:一行文本,生成3D動態場景!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    #3D視覺 #3d打印

    3D打印3D視覺
    玩打印的超哥
    發布于 :2022年09月28日 16:13:02

    3D打印技術及應用: 3D打印-FDM打印演示#3d打印

    3D打印
    學習硬聲知識
    發布于 :2022年11月10日 21:58:30

    3D打印技術及應用: 3D打印工藝的分類#3d打印

    3D打印
    學習硬聲知識
    發布于 :2022年11月10日 22:04:40

    3D LED液晶電視設計方案

    照色深形成3D映射圖后, 再從3D映射圖中提取左、右眼的完整的幀信號;3D格式有多種格式( 例如上下格式、左右格式、交錯格式、像素交錯
    發表于 07-11 18:05

    Labview中如何導入3D 的模型

    Labview中如何導入3D 的模型,例如3Dmax生成的模型。嘗試過用.STL格式導入Labview。但是3D模型的材質以及切特性都沒有
    發表于 01-26 13:13

    3D模型文件格式之OBJ詳解

    文件由一行行文本組成,注釋以符號“#”為開頭,空格和空行可以隨意加到文件中以增加文件的可讀性。有字的行都由一兩個標記字母也就是關鍵字(Keyword)開頭,關鍵字可以說明這一行是什么樣的數據。多行
    發表于 04-27 17:02

    3D負載會影響NVENC性能嗎

    。這似乎是阻礙我們通過NVIDIA Grid / XenDesktop實現動態3D模型可視化的近乎裸機性能的最后障礙。在審閱了文檔后,我提出些可能的理論/策略包括:*幀緩沖區讀取被
    發表于 09-17 14:38

    3D模擬飛機飛行串口

    、橫滾交付、偏航角度!2、3D模型處理,導入控制等3、場景設計,背景色、視角控制、光源控制等。3D 飛機模型 角度 串口 daq.zip
    發表于 04-02 09:40

    什么叫3D微波技術

    3D電影已成為影院觀影的首選,當3D打印已普及到雙耳無線藍牙耳機,種叫“3D微波”的技術也悄然而生。初次聽到“3D微波”,你可能會
    發表于 07-02 06:30

    AD16的3D封裝庫問題?

    `AD16的3D封裝庫問題以前采用封裝庫向導生成3D元件庫,都有芯片管腳的,如下圖:可是現在什么設置都沒有改變,怎么生成3D庫就沒有管腳
    發表于 09-26 21:28

    浩辰3D軟件入門教程:如何比較3D模型

    。浩辰3D軟件不僅提供了完備的零件、裝配、仿真、工程圖、鈑金、焊接等數十種設計模塊,還提供了「比較模型」和「比較圖紙」功能,讓這過程高效且精確。01「比較模型」在3D設計時,設計師雖然可以憑借觀察力
    發表于 12-15 13:45

    3D制圖軟件與Excel的關聯設計技巧

    與Excel是一一對應的。如果Excel數據或浩辰3D模型發生變化,另方也跟著發生變化。有些應用場景,需要通過個Excel表格生成多個模
    發表于 01-20 11:17

    3D軟件中如何應用文本特征?3D文本特征應用技巧

    精準的標注。浩辰3D軟件的文本特征應用,能幫助設計工程師以順序建模設計方式,快速創建特征,實現精準化標注。下面,小編給大家介紹下如何使用浩辰3D軟件的
    發表于 04-22 17:28

    浩辰3D的「3D打印」你會用嗎?3D打印教程

    設計。由浩辰CAD公司研發的浩辰3D作為從產品設計到制造全流程的高端3D設計軟件,不僅能夠提供完備的2D+3D體化解決方案,還能站式集成
    發表于 05-27 19:05

    3D圖像生成算法的原理是什么?

    什么是3D圖形芯片?3D圖像生成算法的原理是什么?
    發表于 06-04 06:29
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>