<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Macaw-LLM:具有圖像、音頻、視頻和文本集成的多模態語言建模

Qxwdz168 ? 來源:計算機視覺芯片設計 ? 2023-06-19 10:35 ? 次閱讀

文章:https://lnkd.in/gcwEeKE3

Python 代碼:https://lnkd.in/ggEK6KwU

9d1cc180-0df2-11ee-962d-dac502259ad0.jpg

盡管指令調整的大型語言模型 (LLM) 在各種 NLP 任務中表現出卓越的能力,但它們在文本以外的其他數據模式上的有效性尚未得到充分研究。在這項工作中,我們提出了 Macaw-LLM,一種新穎的多模式 LLM,它無縫集成了視覺、音頻和文本信息。

Macaw-LLM 由三個主要組件組成:用于編碼多模態數據的模態模塊、用于利用預訓練 LLM 的認知模塊以及用于協調不同表示的對齊模塊。

我們新穎的對齊模塊將多模態特征無縫地連接到文本特征,簡化了從模態模塊到認知模塊的適應過程。

此外,我們在多輪對話方面構建了一個大規模的多模態指令數據集,包括 69K 圖像實例和 50K 視頻實例。我們已經公開了我們的數據、代碼和模型,我們希望這可以為多模態 LLM 的未來研究鋪平道路,并擴展 LLM 處理不同數據模態和解決復雜現實場景的能力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模塊
    +關注

    關注

    7

    文章

    2516

    瀏覽量

    46695
  • 語言建模
    +關注

    關注

    0

    文章

    5

    瀏覽量

    6248
  • 語言模型
    +關注

    關注

    0

    文章

    462

    瀏覽量

    10118
  • LLM
    LLM
    +關注

    關注

    0

    文章

    217

    瀏覽量

    243

原文標題:Macaw-LLM:具有圖像、音頻、視頻和文本集成的多模態語言建模

文章出處:【微信號:計算機視覺芯片設計,微信公眾號:計算機視覺芯片設計】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    自然語言處理的圖像文本建模相關研究及分析

    近年來,圖像文本建模研究已經成為自然語言處理領域一個重要的硏究方向。圖像常被用于增強句子的語義理解與表示。然而也有硏究人員對
    發表于 03-24 11:33 ?27次下載
    自然<b class='flag-5'>語言</b>處理的<b class='flag-5'>圖像</b><b class='flag-5'>文本</b><b class='flag-5'>建模</b>相關研究及分析

    如何去解決文本圖像生成的跨模態對比損失問題?

    文本圖像的自動生成,如何訓練模型僅通過一段文本描述輸入就能生成具體的圖像,是一項非常具有挑戰性的任務。
    的頭像 發表于 06-15 10:07 ?2479次閱讀
    如何去解決<b class='flag-5'>文本</b>到<b class='flag-5'>圖像</b>生成的跨<b class='flag-5'>模態</b>對比損失問題?

    簡述文本圖像領域的多模態學習有關問題

    模型中的幾個分支角度,簡述文本圖像領域的多模態學習有關問題。 1. 引言 近年來,計算機視覺和自然語言處理方向均取得了很大進展。而融合二者的多模態
    的頭像 發表于 08-26 16:29 ?6474次閱讀

    復旦&amp;微軟提出?OmniVL:首個統一圖像、視頻、文本的基礎預訓練模型

    根據輸入數據和目標下游任務的不同,現有的VLP方法可以大致分為兩類:圖像-文本預訓練和視頻-文本預訓練。前者從圖像-
    的頭像 發表于 12-14 15:26 ?651次閱讀

    微軟多模態ChatGPT的常見測試介紹

    研究者將一個基于 Transformer 的語言模型作為通用接口,并將其與感知模塊對接。他們在網頁規模的多模態語料庫上訓練模型,語料庫包括了文本數據、任意交錯的圖像
    發表于 03-13 11:23 ?725次閱讀

    ImageBind:跨模態之王,將6種模態全部綁定!

    最近,很多方法學習與文本、音頻等對齊的圖像特征。這些方法使用單對模態或者最多幾種視覺模態。最終嵌入僅限于用于訓練的
    的頭像 發表于 05-11 09:30 ?717次閱讀
    ImageBind:跨<b class='flag-5'>模態</b>之王,將6種<b class='flag-5'>模態</b>全部綁定!

    如何利用LLM做多模態任務?

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力,但目前還未開放
    的頭像 發表于 05-11 17:09 ?720次閱讀
    如何利用<b class='flag-5'>LLM</b>做多<b class='flag-5'>模態</b>任務?

    邱錫鵬團隊提出SpeechGPT:具有內生跨模態能力的大語言模型

    雖然現有的級聯方法或口語語言模型能夠感知和生成語音,但仍存在一些限制。首先,在級聯模型中,LLM 僅充當內容生成器。由于語音和文本的表示沒有對齊,LLM 的知識無法遷移到語音
    的頭像 發表于 05-22 10:19 ?452次閱讀
    邱錫鵬團隊提出SpeechGPT:<b class='flag-5'>具有</b>內生跨<b class='flag-5'>模態</b>能力的大<b class='flag-5'>語言</b>模型

    邱錫鵬團隊提出具有內生跨模態能力的SpeechGPT,為多模態LLM指明方向

    大型語言模型(LLM)在各種自然語言處理任務上表現出驚人的能力。與此同時,多模態大型語言模型,如 GPT-4、PALM-E 和 LLaVA,
    的頭像 發表于 05-22 14:38 ?467次閱讀
    邱錫鵬團隊提出<b class='flag-5'>具有</b>內生跨<b class='flag-5'>模態</b>能力的SpeechGPT,為多<b class='flag-5'>模態</b><b class='flag-5'>LLM</b>指明方向

    如何利用LLM做多模態任務?

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力,但目前還未開放
    的頭像 發表于 05-22 15:57 ?561次閱讀
    如何利用<b class='flag-5'>LLM</b>做多<b class='flag-5'>模態</b>任務?

    基于實體和動作時空建模視頻文本預訓練

    摘要 盡管常見的大規模視頻-文本預訓練模型已經在很多下游任務取得不錯的效果,現有的模型通常將視頻或者文本視為一個整體建模
    的頭像 發表于 05-25 11:29 ?466次閱讀
    基于實體和動作時空<b class='flag-5'>建模</b>的<b class='flag-5'>視頻</b><b class='flag-5'>文本</b>預訓練

    圖像對齊所有模態,Meta開源多感官AI基礎模型,實現大一統

    最近,很多方法學習與文本、音頻等對齊的圖像特征。這些方法使用單對模態或者最多幾種視覺模態。最終嵌入僅限于用于訓練的
    的頭像 發表于 05-26 15:45 ?615次閱讀
    用<b class='flag-5'>圖像</b>對齊所有<b class='flag-5'>模態</b>,Meta開源多感官AI基礎模型,實現大一統

    基于文本圖像模型的可控文本視頻生成

    1. 論文信息 2. 引言 ? 大規模擴散模型在文本圖像合成方面取得了巨大的突破,并在創意應用方面取得了成功。一些工作試圖在視頻領域復制這個成功,即在野外世界建模高維復雜
    的頭像 發表于 06-14 10:39 ?648次閱讀
    基于<b class='flag-5'>文本</b>到<b class='flag-5'>圖像</b>模型的可控<b class='flag-5'>文本</b>到<b class='flag-5'>視頻</b>生成

    自動駕駛和多模態語言模型的發展歷程

    模態語言模型(MLLM) 最近引起了廣泛的關注,其將 LLM 的推理能力與圖像、視頻音頻
    發表于 12-28 11:45 ?267次閱讀
    自動駕駛和多<b class='flag-5'>模態</b>大<b class='flag-5'>語言</b>模型的發展歷程

    韓國Kakao宣布開發多模態語言模型“蜜蜂”

    韓國互聯網巨頭Kakao最近宣布開發了一種名為“蜜蜂”(Honeybee)的多模態大型語言模型。這種創新模型能夠同時理解和處理圖像和文本數據,為更豐富的交互和查詢響應提供了可能性。
    的頭像 發表于 01-19 16:11 ?340次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>