<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度剖析Sora技術的核心原理與應用

架構師技術聯盟 ? 來源:架構師技術聯盟 ? 2024-04-08 09:56 ? 次閱讀

?文生視頻大模型Sora橫空出世,能夠根據文本指令或靜態圖像生成1分鐘的視頻。其中,視頻生成包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動,同時也接受現有視頻擴展或填補缺失的幀。

總體而言,不管是在視頻的保真度、長度、穩定性、一致性、分辨率、文字理解等方面,Sora都做到了業內領先水平,引領多模態產業革命。此外,當Sora訓練的數據量足夠大時,它也展現出了一種類似于涌現的能力,從而使得視頻生成模型具備了類似于物理世界通用模擬器的潛力。 Sora借鑒LLM中將文本信息轉化為token的思路,針對視頻訓練視覺patch,實現視覺數據模型的統一表達,實現對多樣化視頻和圖像內容的有效處理和生成,之后通過視頻壓縮網絡分解為時空patches,允許模型在時間和空間范圍內進行信息交換和操作。

從Sora技術報告來看,時空patches或借鑒谷歌ViViT操作。ViViT借鑒ViT在圖片分割上的思路,把輸入的視頻劃分成若干個tuplet,每個tuplet會變成一個token,經過spatial temperal attention進行空間和時間建模獲得有效的視頻表征token。 傳統方法可能將視頻簡單分解為一系列連續的幀,因而忽略了視頻中的空間信息,也就是在每一幀中物體的位置和運動。我們認為,由于連續幀存在時空連續性,Sora的時空patches可同時考慮視頻中時間和空間關系,能夠更加精準生成視頻,捕捉到視頻中細微的動作和變化,在保證視頻內容連貫性和長度的同時,創造出豐富多樣的視覺效果,靈活滿足用戶的各種需求。

7829b7dc-f543-11ee-a297-92fbcf53809c.png

78360a3c-f543-11ee-a297-92fbcf53809c.jpg

7853effc-f543-11ee-a297-92fbcf53809c.jpg

78689452-f543-11ee-a297-92fbcf53809c.jpg

787c4d8a-f543-11ee-a297-92fbcf53809c.jpg

788d876c-f543-11ee-a297-92fbcf53809c.jpg

7916d1d4-f543-11ee-a297-92fbcf53809c.jpg

wKgZomYTTvyAQaj8AAMMNH4iytA812.png

793222ea-f543-11ee-a297-92fbcf53809c.jpg

wKgaomYTTymAc_0EAAf3LKBuO-A083.png

wKgZomYTTziAPQEMAAPVJ3v4vP4589.png

wKgaomYTT1uAc6-KAAXj8AOcytA673.png

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • LLM
    LLM
    +關注

    關注

    0

    文章

    215

    瀏覽量

    243
  • Sora
    +關注

    關注

    0

    文章

    74

    瀏覽量

    143

原文標題:分享:Sora技術深度解析

文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    《C語言深度剖析》【超經典書籍】

    本帖最后由 zgzzlt 于 2012-8-16 14:23 編輯 《C語言深度剖析》【超經典書籍】
    發表于 08-02 08:59

    C語言深度剖析

    C語言深度剖析——一本關于C語言學習的教程,里面包含C語言編寫規范,各種變量指針用法等。以含金量勇敢挑戰國內外同類書籍
    發表于 08-14 11:36

    c語言深度剖析

    c語言深度剖析
    發表于 04-02 09:12

    陳正沖《C語言深度剖析

    陳正沖編寫的《C語言深度剖析》,挺經典,剛來論壇,多多指教~~
    發表于 08-17 12:06

    linux內核深度剖析,另附有光盤資料

    linux內核深度剖析,對于想學linux內核的人來說,絕對值得一看,另附有光盤資料。
    發表于 01-15 21:25

    【資料分享】C語言深度剖析

    C語言深度剖析
    發表于 10-16 15:16

    C語言深度剖析

    C語言深度剖析
    發表于 08-25 09:08

    C語言深度剖析

    C語言深度剖析[完整版].pdfC語言深度剖析[完整版].pdf (919.58 KB )
    發表于 03-19 05:11

    C語言深度剖析

    C語言深度剖析。
    發表于 05-05 17:40 ?7次下載

    C語言深度剖析

    C語言深度剖析
    發表于 12-20 22:50 ?0次下載

    C語言深度剖析.zip

    C語言深度剖析
    發表于 12-30 09:20 ?5次下載

    探索OpenAI Sora視頻AI生成技術及其應用如何使用指南

    OpenAI的Sora現已擴展其能力范圍,進入視頻生成領域,標志著人工智能技術在多媒體內容創作上的一個重大突破。Sora的視頻AI功能使得用戶能夠根據文本描述自動生成高質量的視頻內容,這項技術
    的頭像 發表于 02-20 12:01 ?973次閱讀

    sora最新消息 sora是什么意思

    。 Sora可以根據用戶的文本提示創建最長60秒的逼真視頻,該模型了解這些物體在物理世界中的存在方式,可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復雜場景。繼承了DALL-E 3的畫質和遵循指令能力,能理解用戶在提示中提出的要求。
    的頭像 發表于 02-21 16:38 ?1370次閱讀

    sora系列是哪個公司的 sora視頻怎么用

    )正式對外發布。 sora視頻怎么用 Sora可以根據用戶的文本提示創建最長60秒的逼真視頻,該模型了解這些物體在物理世界中的存在方式,可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復雜場景。繼承了DALL-E 3
    的頭像 發表于 02-21 16:35 ?3481次閱讀

    sora模型怎么使用 sora模型對現實的影響

    美國當地時間2024年2月15日 ,OpenAI正式發布文生視頻模型Sora ,并發布了48個文生視頻案例和技術報告 ,正式入局視頻生成領域 。Sora能夠根據提示詞生成60s的連貫視頻,“碾壓
    的頭像 發表于 02-22 16:42 ?728次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>