<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

頂刊TPAMI 2023!生成式AI與圖像合成綜述發布!

CVer ? 來源:CVer ? 2023-09-05 16:06 ? 次閱讀

生成式AI作為當前人工智能領域的前沿技術,已被廣泛的應用于各類視覺合成任務。

隨著DALL-E2,Stable Diffusion和DreamFusion的發布,AI作畫和3D合成實現了令人驚嘆的視覺效果并且在全球范圍內的爆炸式增長。這些生成式AI技術深刻地拓展了人們對于AI圖像生成能力的認識,那么這些生成式AI方法是如何生成以假亂真的視覺效果?又是如何利用深度學習神經網絡技術來實現畫作、3D生成以及其他創造性任務的呢?我們的綜述論文將會給您提供這些問題的答案。

在第一章節,該綜述描述了多模態圖像合成與編輯任務的意義和整體發展,以及本論文的貢獻與總體結構。

在第二章節,根據引導圖片合成與編輯的數據模態,該綜述論文介紹了比較常用的視覺引導,文字引導,語音引導,還有近期DragGAN提出的控制點引導等,并且介紹了相應模態數據的處理方法。

0f2b7d1c-4baa-11ee-a25d-92fbcf53809c.png

在第三章節,根據圖像合成與編輯的模型框架,該論文對目前的各種方法進行了分類,包括基于GAN的方法,擴散模型方法,自回歸方法,和神經輻射場(NeRF)方法。

0f740ab4-4baa-11ee-a25d-92fbcf53809c.png

由于基于GAN的方法一般使用條件GAN和 GAN 反演,因此該論文進一步根據 控制條件的融合方式,模型的結構,損失函數設計,多模態對齊,和跨模態監督進行了詳細描述。

0f9677de-4baa-11ee-a25d-92fbcf53809c.png

近期,火熱的擴散模型也被廣泛應用于多模態合成與編輯任務。例如效果驚人的DALLE-2和Imagen都是基于擴散模型實現的。相比于GAN,擴散式生成模型擁有一些良好的性質,比如靜態的訓練目標和易擴展性。該論文依據條件擴散模型和預訓練擴散模型對現有方法進行了分類與詳細分析。

0fc94f24-4baa-11ee-a25d-92fbcf53809c.png

0fe73688-4baa-11ee-a25d-92fbcf53809c.png

相比于基于GAN和擴散模型的方法,自回歸模型方法能夠更加自然的處理多模態數據,以及利用目前流行的Transformer模型。自回歸方法一般先學習一個向量量化編碼器將圖片離散地表示為token序列,然后自回歸式地建模token的分布。由于文本和語音等數據都能表示為token并作為自回歸建模的條件,因此各種多模態圖片合成與編輯任務都能統一到一個框架當中。

1022b80c-4baa-11ee-a25d-92fbcf53809c.png

以上方法主要聚焦于2D圖像的多模態合成與編輯。近期隨著神經輻射場(NeRF)的迅速發展,3D感知的多模態合成與編輯也吸引了越來越多的關注。由于需要考慮多視角一致性,3D感知的多模態合成與編輯是更具挑戰性的任務。本文針對單場景優化NeRF,生成式NeRF兩種方法對現有工作進行了分類與總結。

104b6d92-4baa-11ee-a25d-92fbcf53809c.png

隨后,該綜述對以上四種模型方法的進行了比較和討論??傮w而言,相比于GAN,目前最先進的模型更加偏愛自回歸模型和擴散模型。而NeRF在多模態合成與編輯任務的應用為這個領域的研究打開了一扇新的窗戶。

10867eb4-4baa-11ee-a25d-92fbcf53809c.png

在第四章節,該綜述匯集了多模態合成與編輯領域流行的數據集以及相應的模態標注,并且針對各模態典型任務(語義圖像合成,文字到圖像合成,語音引導圖像編輯)對當前方法進行了定量的比較。同時也對多種模態同時控制生成的結果進行了可視化。

10a7b61a-4baa-11ee-a25d-92fbcf53809c.png

在第五章節,該綜述對此領域目前的挑戰和未來方向進行了探討和分析,包括大規模的多模態數據集,準確可靠的評估指標,高效的網絡架構,以及3D感知的發展方向。

在第六和第七章節,該綜述分別闡述了此領域潛在的社會影響和總結了文章的內容與貢獻。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1067

    瀏覽量

    40086
  • 數據集
    +關注

    關注

    4

    文章

    1182

    瀏覽量

    24403
  • 生成式AI
    +關注

    關注

    0

    文章

    400

    瀏覽量

    258

原文標題:頂刊TPAMI 2023!生成式AI與圖像合成綜述發布!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    生成AI 制作動畫:周期短、成本低!

    工作室和特效公司正廣泛采用生成AI技術進行背景生成、角色創作和動作合成。這種技術的應用不僅提高了動畫制作的效率,還使得動畫作品在視覺效果和創意上有了更大的突破。
    的頭像 發表于 03-18 08:19 ?2641次閱讀
    <b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 制作動畫:周期短、成本低!

    全球首個AI合成主播上崗新華社,可24小時不間斷工作

    互聯網大會上發布全球首個合成新聞主播——“AI合成主播”,運用最新人工智能技術,“克隆”出與真人主播擁有同樣播報能力的“分身”。這不僅在全球AI
    發表于 11-17 09:25

    搜狗與新華社聯合發布全球首個站立式AI合成主播

    ,新版的AI合成主播采用了“搜狗分身”領先的wavernn波形建模技術,可以實現逼真的語音合成效果,讓AI的聲音更具有真實情感和表現力?! 《?b class='flag-5'>圖像
    發表于 02-25 09:28

    29頁PPT,詳細介紹Ouroboros的語音AI芯片

    阿里達摩院發布一款名為Ouroboros的語音AI芯片。據官方表示,這款芯片是業界首款專門用于語音合成算法的AI芯片,它基于FPGA芯片結構設計,能進一步提高語音
    發表于 10-16 16:32

    【HarmonyOS HiSpark AI Camera】AI圖像開發

    項目名稱:AI圖像開發試用計劃:申請理由本人在AI圖像識別中已有一年的開發經驗,目前正采用瑞芯微的rk1808芯片進行模型的落地部署,但是該芯片沒有任何的攝像頭方案,需要自己選取。目前
    發表于 09-25 10:11

    阿里平頭哥發布首個 RISC-V AI 軟硬全棧平臺

    轉自https://m.ithome.com/html/714391.htm 2023 RISC-V 中國峰會8月23日在北京召開,平頭哥在會上發布了首個自研 RISC-V AI 平臺。 據介紹,該
    發表于 08-26 14:14

    基于LABVIEW編程的圖像處理綜述

    基于LABVIEW編程的圖像處理綜述
    發表于 09-09 10:11 ?37次下載

    多模態圖像合成與編輯方法

    本篇綜述通過對現有的多模態圖像合成與編輯方法的歸納總結,對該領域目前的挑戰和未來方向進行了探討和分析。
    的頭像 發表于 08-23 09:12 ?1036次閱讀

    Stability AI開源圖像生成模型Stable Diffusion

    Stable Diffusion 的很多用戶已經公開發布生成圖像的樣例,Stability AI 的首席開發者 Katherine Crowson 在推特上分享了許多
    的頭像 發表于 09-21 15:37 ?2640次閱讀

    英偉達 GTC 2023上黃仁勛談生成AI

    英偉達 GTC 2023上黃仁勛談生成AI 黃教主在GTC 2023上大談特談生成AI,同時
    的頭像 發表于 03-22 17:14 ?1674次閱讀
    英偉達 GTC <b class='flag-5'>2023</b>上黃仁勛談<b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>

    什么是生成AI?生成AI的四大優勢

    生成AI是一種特定類型的AI,專注于生成新內容,如文本、圖像和音樂。這些系統在大型數據集上進行訓練,并使用機器學習算法
    發表于 05-29 14:12 ?3062次閱讀

    虹軟圖像深度恢復技術與生成AI的創新 生成AI助力

    當前,生成式人工智能(AI)技術的快速發展令人矚目。它能夠理解人類的描述,并在短時間內生成逼真的圖像和視頻。在生成
    發表于 06-21 09:06 ?321次閱讀

    《開放加速規范AI服務器設計指南》發布,應對生成AI算力挑戰

    北京2023年8月11日 /美通社/ -- 8月10日,在2023年開放計算社區中國峰會(OCP China Day 2023)上,《開放加速規范AI服務器設計指南》(以下簡稱《指南》
    的頭像 發表于 08-14 09:49 ?537次閱讀

    UL Procyon AI 發布圖像生成基準測試,基于Stable Diffusion

    UL去年發布的首個Windows版Procyon AI推理基準測試,以計算機視覺工作負載評估AI推理性能。新推出的圖像生成測試將提供統一、精
    的頭像 發表于 03-25 16:16 ?405次閱讀

    OpenAI發布圖像檢測分類器,可區分AI生成圖像與實拍照片

    據OpenAI介紹,初步測試結果表明,該分類器在辨別非AI生成圖像與DALL·E 3生成圖像時,成功率高達近98%,僅有不到0.5%的非
    的頭像 發表于 05-09 09:57 ?91次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>