<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

頂刊TPAMI 2023！生成式AI與圖像合成綜述發布！

生成式AI作為當前人工智能領域的前沿技術，已被廣泛的應用于各類視覺合成任務。

隨著DALL-E2，Stable Diffusion和DreamFusion的發布，AI作畫和3D合成實現了令人驚嘆的視覺效果并且在全球范圍內的爆炸式增長。這些生成式AI技術深刻地拓展了人們對于AI圖像生成能力的認識，那么這些生成式AI方法是如何生成以假亂真的視覺效果？又是如何利用深度學習和神經網絡技術來實現畫作、3D生成以及其他創造性任務的呢？我們的綜述論文將會給您提供這些問題的答案。

在第一章節，該綜述描述了多模態圖像合成與編輯任務的意義和整體發展，以及本論文的貢獻與總體結構。

在第二章節，根據引導圖片合成與編輯的數據模態，該綜述論文介紹了比較常用的視覺引導，文字引導，語音引導，還有近期DragGAN提出的控制點引導等，并且介紹了相應模態數據的處理方法。

在第三章節，根據圖像合成與編輯的模型框架，該論文對目前的各種方法進行了分類，包括基于GAN的方法，擴散模型方法，自回歸方法，和神經輻射場（NeRF）方法。

由于基于GAN的方法一般使用條件GAN和 GAN 反演，因此該論文進一步根據控制條件的融合方式，模型的結構，損失函數設計，多模態對齊，和跨模態監督進行了詳細描述。

近期，火熱的擴散模型也被廣泛應用于多模態合成與編輯任務。例如效果驚人的DALLE-2和Imagen都是基于擴散模型實現的。相比于GAN，擴散式生成模型擁有一些良好的性質，比如靜態的訓練目標和易擴展性。該論文依據條件擴散模型和預訓練擴散模型對現有方法進行了分類與詳細分析。

相比于基于GAN和擴散模型的方法，自回歸模型方法能夠更加自然的處理多模態數據，以及利用目前流行的Transformer模型。自回歸方法一般先學習一個向量量化編碼器將圖片離散地表示為token序列，然后自回歸式地建模token的分布。由于文本和語音等數據都能表示為token并作為自回歸建模的條件，因此各種多模態圖片合成與編輯任務都能統一到一個框架當中。

以上方法主要聚焦于2D圖像的多模態合成與編輯。近期隨著神經輻射場（NeRF）的迅速發展，3D感知的多模態合成與編輯也吸引了越來越多的關注。由于需要考慮多視角一致性，3D感知的多模態合成與編輯是更具挑戰性的任務。本文針對單場景優化NeRF，生成式NeRF兩種方法對現有工作進行了分類與總結。

隨后，該綜述對以上四種模型方法的進行了比較和討論?？傮w而言，相比于GAN，目前最先進的模型更加偏愛自回歸模型和擴散模型。而NeRF在多模態合成與編輯任務的應用為這個領域的研究打開了一扇新的窗戶。

在第四章節，該綜述匯集了多模態合成與編輯領域流行的數據集以及相應的模態標注，并且針對各模態典型任務（語義圖像合成，文字到圖像合成，語音引導圖像編輯）對當前方法進行了定量的比較。同時也對多種模態同時控制生成的結果進行了可視化。

在第五章節，該綜述對此領域目前的挑戰和未來方向進行了探討和分析，包括大規模的多模態數據集，準確可靠的評估指標，高效的網絡架構，以及3D感知的發展方向。

在第六和第七章節，該綜述分別闡述了此領域潛在的社會影響和總結了文章的內容與貢獻。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

圖像

圖像

+關注

關注
2

文章
1067

瀏覽量
40086
數據集

數據集

+關注

關注
4

文章
1182

瀏覽量
24403
生成式AI

生成式AI

+關注

關注
0

文章
400

瀏覽量
258

原文標題：頂刊TPAMI 2023！生成式AI與圖像合成綜述發布！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

生成式 AI 制作動畫：周期短、成本低！

工作室和特效公司正廣泛采用生成式AI技術進行背景生成、角色創作和動作合成。這種技術的應用不僅提高了動畫制作的效率，還使得動畫作品在視覺效果和創意上有了更大的突破。

的頭像

發表于 03-18 08:19 ?2641次閱讀

<b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 制作動畫：周期短、成本低！

全球首個AI合成主播上崗新華社，可24小時不間斷工作

互聯網大會上發布全球首個合成新聞主播——“AI合成主播”，運用最新人工智能技術，“克隆”出與真人主播擁有同樣播報能力的“分身”。這不僅在全球AI

發表于 11-17 09:25

搜狗與新華社聯合發布全球首個站立式AI合成主播

，新版的AI合成主播采用了“搜狗分身”領先的wavernn波形建模技術，可以實現逼真的語音合成效果，讓AI的聲音更具有真實情感和表現力?！　《?b class='flag-5'>圖像

發表于 02-25 09:28

29頁PPT，詳細介紹Ouroboros的語音AI芯片

阿里達摩院發布一款名為Ouroboros的語音AI芯片。據官方表示，這款芯片是業界首款專門用于語音合成算法的AI芯片，它基于FPGA芯片結構設計，能進一步提高語音

發表于 10-16 16:32

【HarmonyOS HiSpark AI Camera】AI圖像開發

項目名稱：AI圖像開發試用計劃：申請理由本人在AI圖像識別中已有一年的開發經驗,目前正采用瑞芯微的rk1808芯片進行模型的落地部署，但是該芯片沒有任何的攝像頭方案，需要自己選取。目前

發表于 09-25 10:11

阿里平頭哥發布首個 RISC-V AI 軟硬全棧平臺

轉自https://m.ithome.com/html/714391.htm 2023 RISC-V 中國峰會8月23日在北京召開，平頭哥在會上發布了首個自研 RISC-V AI 平臺。據介紹，該

發表于 08-26 14:14

基于LABVIEW編程的圖像處理綜述

基于LABVIEW編程的圖像處理綜述

發表于 09-09 10:11 ?37次下載

多模態圖像合成與編輯方法

本篇綜述通過對現有的多模態圖像合成與編輯方法的歸納總結，對該領域目前的挑戰和未來方向進行了探討和分析。

發表于 08-23 09:12 ?1036次閱讀

Stability AI開源圖像生成模型Stable Diffusion

Stable Diffusion 的很多用戶已經公開發布了生成圖像的樣例，Stability AI 的首席開發者 Katherine Crowson 在推特上分享了許多

發表于 09-21 15:37 ?2640次閱讀

英偉達 GTC 2023上黃仁勛談生成式AI

英偉達 GTC 2023上黃仁勛談生成式AI 黃教主在GTC 2023上大談特談生成式AI，同時

發表于 03-22 17:14 ?1674次閱讀

什么是生成式AI？生成式AI的四大優勢

生成式AI是一種特定類型的AI，專注于生成新內容，如文本、圖像和音樂。這些系統在大型數據集上進行訓練，并使用機器學習算法

發表于 05-29 14:12 ?3062次閱讀

虹軟圖像深度恢復技術與生成式AI的創新生成式AI助力

當前，生成式人工智能（AI）技術的快速發展令人矚目。它能夠理解人類的描述，并在短時間內生成逼真的圖像和視頻。在生成式

發表于 06-21 09:06 ?321次閱讀

《開放加速規范AI服務器設計指南》發布，應對生成式AI算力挑戰

北京2023年8月11日 /美通社/ -- 8月10日，在2023年開放計算社區中國峰會(OCP China Day 2023)上，《開放加速規范AI服務器設計指南》（以下簡稱《指南》

發表于 08-14 09:49 ?537次閱讀

UL Procyon AI 發布圖像生成基準測試，基于Stable Diffusion

UL去年發布的首個Windows版Procyon AI推理基準測試，以計算機視覺工作負載評估AI推理性能。新推出的圖像生成測試將提供統一、精

發表于 03-25 16:16 ?405次閱讀

OpenAI發布圖像檢測分類器，可區分AI生成圖像與實拍照片

據OpenAI介紹，初步測試結果表明，該分類器在辨別非AI生成圖像與DALL·E 3生成圖像時，成功率高達近98%，僅有不到0.5%的非

發表于 05-09 09:57 ?91次閱讀

CVer
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot DepGraph：任意架構的結構化剪枝，CNN、Transformer、GNN等都適用！
Hot StrucTexTv2：端到端文檔圖像理解預訓練框架

New Vision Mamba：速度與內存的雙重突破
New Adobe提出DMV3D：3D生成只需30秒！讓文本、圖像都動起來的新方法！

精選推薦
更多

文章

資料

帖子

5.20世界計量日 | 精彩回顧計量展，共期計量新發展

深圳航智
2小時前

47 閱讀

如何根據需求選擇合適的三坐標測量機？

中圖儀器
2小時前

85 閱讀

1分鐘教你在buildroot系統中使用TRIM

觸覺智能
4小時前

89 閱讀

淺析基于CW32的無刷直流空心杯電機有感控制驅動方案

武漢芯源半導體
2小時前

163 閱讀

CW32數字電壓電流表軟件教程（五）：ADC采樣及顯示

武漢芯源半導體
2小時前

144 閱讀

富士通LCD面板電源方案

李軍
651 KB

免費

62下載

Keil C編譯器編程規則和代碼優化

liuxin
447 KB

免費

315下載

IPHONE4和IPHONE4S拆機圖對比

lanlanw
1.35 MB

免費

331下載

開關電源電路開發設計秘籍大全

盧國藝
964KB

4積分

225下載

Pepper Metrics運行時性能收集工具

張靜
0.36 MB

免費

0下載

5G智能物聯網課程之Aidlux下人工智能開發（SC171開發套件V2）

蓉兒蓉兒蓉
11天前

455 閱讀

飛凌嵌入式ElfBoard ELF 1板卡-交叉編譯鏈描述及使用方法

jf_13411809
1天前

279 閱讀

開源項目！設計一款智能手語翻譯眼鏡

ElecFans小喇叭
1天前

193 閱讀

S32K376 電池管理系統和車輛控制單元概念驗證

硬件工程師1
1天前

216 閱讀

第一次啟動StarFive VisionFive 2， U-Boot總是報錯，為什么？

風來吳山
1天前

142 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看