<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

邱錫鵬團隊提出具有內生跨模態能力的SpeechGPT,為多模態LLM指明方向

深度學習自然語言處理 ? 來源:機器之心 ? 2023-05-22 14:38 ? 次閱讀

「 SpeechGPT 為打造真正的多模態大語言模型指明了方向:將不同模態的數據(視覺,語音等)統一表示為離散單元集成在 LLM 之中,在跨模態數據集上經過預訓練和指令微調,來使得模型具有多模態理解和生成的能力,從而離 AGI 更進一步?!埂?復旦大學計算機學院教授邱錫鵬

5fb155f0-f7da-11ed-90ce-dac502259ad0.png

大型語言模型(LLM)在各種自然語言處理任務上表現出驚人的能力。與此同時,多模態大型語言模型,如 GPT-4、PALM-E 和 LLaVA,已經探索了 LLM 理解多模態信息的能力。然而,當前 LLM 與通用人工智能(AGI)之間仍存在顯著差距。首先,大多數當前 LLM 只能感知和理解多模態內容,而不能自然而然地生成多模態內容。其次,像圖像和語音這樣的連續信號不能直接適應接收離散 token 的 LLM。 當前的語音 - 語言(speech-language)模型主要采用級聯模式,即 LLM 與自動語音識別(ASR)模型或文本到語音(TTS)模型串聯連接,或者 LLM 作為控制中心,與多個語音處理模型集成以涵蓋多個音頻或語音任務。一些關于生成式口語語言模型的先前工作涉及將語音信號編碼為離散表示,并使用語言模型對其進行建模。 雖然現有的級聯方法或口語語言模型能夠感知和生成語音,但仍存在一些限制。首先,在級聯模型中,LLM 僅充當內容生成器。由于語音和文本的表示沒有對齊,LLM 的知識無法遷移到語音模態中。其次,級聯方法存在失去語音的附加語言信號(如情感和韻律)的問題。第三,現有的口語語言模型只能合成語音,而無法理解其語義信息,因此無法實現真正的跨模態感知和生成。 在本文中,來自復旦大學的張棟、邱錫鵬等研究者提出了 SpeechGPT,這是一個具有內生跨模態對話能力的大型語言模型,能夠感知和生成多模態內容。他們通過自監督訓練的語音模型對語音進行離散化處理,以統一語音和文本之間的模態。然后,他們將離散的語音 token 擴展到 LLM 的詞匯表中,從而賦予模型感知和生成語音的內生能力。

5fc971d0-f7da-11ed-90ce-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2305.11000.pdf

demo 地址:https://0nutation.github.io/SpeechGPT.github.io/

GitHub 地址:https://github.com/0nutation/SpeechGPT

為了為模型提供處理多模態指令的能力,研究者構建了第一個語音 - 文本跨模態指令遵循數據集 SpeechInstruct。具體而言,他們將語音離散化為離散單元(discrete unit),并基于現有的 ASR 數據集構建跨模態的單元 - 文本(unit-text)對。同時,他們使用 GPT-4 構建了針對多個任務的數百個指令,以模擬實際用戶的指令,具體見附錄 B。此外,為了進一步增強模型的跨模態能力,他們設計了「Chain-of-Modality」指令數據,即模型接收語音命令,用文本思考過程,然后以語音形式輸出響應。 為了實現更好的跨模態遷移和高效的訓練,SpeechGPT 經歷了三個階段的訓練過程:模態適應預訓練、跨模態指令微調和 chain-of-modality 指令微調。第一階段通過離散語音單元連續任務實現了 SpeechGPT 的語音理解能力。第二階段利用 SpeechInstruct 改進了模型的跨模態能力。第三階段利用參數高效的 LoRA 微調進行進一步的模態對齊。 為了評估 SpeechGPT 的有效性,研究者進行了廣泛的人工評估和案例分析,以評估 SpeechGPT 在文本任務、語音 - 文本跨模態任務和口語對話任務上的性能。結果表明,SpeechGPT 在單模態和跨模態指令遵循任務以及口語對話任務方面展現出強大的能力。

5ff533b0-f7da-11ed-90ce-dac502259ad0.png

SpeechInstruct 由于公開可用的語音數據的限制和語音 - 文本任務的多樣性不足,研究者構建了 SpeechInstruct,這是一個語音 - 文本跨模態指令遵循數據集。該數據集分為兩個部分,第一部分叫做跨模態指令,第二部分叫做 Chain-of-Modality 指令。SpeechInstruct 的構建過程如圖 2 所示。

60053a12-f7da-11ed-90ce-dac502259ad0.png

SpeechGPT 研究者設計了一個統一的框架,以實現不同模態之間的架構兼容性。如圖 2 所示,他們的模型有三個主要組件:離散單元提取器、大型語言模型和單元聲碼器。在這個架構下,LLM 可以感知多模態輸入并生成多模態輸出。 離散單元提取器 離散單元提取器利用 Hidden-unit BERT(HuBERT)模型將連續的語音信號轉換為一系列離散單元的序列。 HuBERT 是一個自監督模型,它通過對模型的中間表示應用 k-means 聚類來為掩蔽的音頻片段預測離散標簽進行學習。它結合了 1-D 卷積層和一個 Transformer 編碼器,將語音編碼為連續的中間表示,然后使用 k-means 模型將這些表示轉換為一系列聚類索引的序列。隨后,相鄰的重復索引被移除,得到表示為6052d4c0-f7da-11ed-90ce-dac502259ad0.png的離散單元序列,K 表示聚類總數。 ?大型語言模型? 研究者采用 Meta AI 的 LLaMA 模型作為他們的大型語言模型。LLaMA 包括一個嵌入層、多個 Transformer 塊和一個語言模型頭層。LLaMA 的參數總數范圍從 7B 到 65B 不等。通過使用包含 1.0 萬億 token 的大規模訓練數據集,LLaMA 在各種自然語言處理基準測試中展現出與規模更大的 175B GPT-3 相當的性能。 ?單元聲碼器? 由于 (Polyak et al., 2021) 中單個說話人單元聲碼器的限制,研究者訓練了一個多說話人單元的 HiFi-GAN,用于從離散表示中解碼語音信號。HiFi-GAN 的架構包括一個生成器 G 和多個判別器 D。生成器使用查找表(Look-Up Tables,LUT)來嵌入離散表示,并通過一系列由轉置卷積和具有擴張層的殘差塊組成的模塊對嵌入序列進行上采樣。說話人嵌入被連接到上采樣序列中的每個幀上。判別器包括一個多周期判別器(Multi-Period Discriminator,MPD)和一個多尺度判別器(Multi-Scale Discriminator,MSD),其架構與 (Polyak et al., 2021) 相同。 ?實驗?跨模態指令遵循?? 如表 1 所示,當提供不同的指令時,模型能夠執行相應的任務并根據這些輸入生成準確的輸出。 ?

606765de-f7da-11ed-90ce-dac502259ad0.png

口語對話 表 2 展示了 SpeechGPT 的 10 個口語對話案例。對話表明,在與人類的交互中,SpeechGPT 能夠理解語音指令并用語音作出相應回應,同時遵守「HHH」標準(無害、有幫助、誠實)。

6071f972-f7da-11ed-90ce-dac502259ad0.png

局限性 盡管 SpeechGPT 展示出令人印象深刻的跨模態指令遵循和口語對話能力,但仍存在一些限制:

它不考慮語音中的語音外語言信息,例如無法以不同的情緒語調生成回應;

它在生成基于語音的回應之前需要生成基于文本的回應;

由于上下文長度的限制,它無法支持多輪對話。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    42

    文章

    3413

    瀏覽量

    131969
  • 生成器
    +關注

    關注

    7

    文章

    306

    瀏覽量

    20402
  • 語言模型
    +關注

    關注

    0

    文章

    463

    瀏覽量

    10120
  • LLM
    LLM
    +關注

    關注

    0

    文章

    217

    瀏覽量

    243

原文標題:邱錫鵬團隊提出具有內生跨模態能力的SpeechGPT,為多模態LLM指明方向

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    模態窗口的設置問題

    Labview中,一個窗口如果設置模態窗口,則打開后,點擊其他窗口應該是沒有作用的。我設置的幾個子VI模態窗口,效果都沒有問題。但有一個子VI,設置
    發表于 11-28 21:56

    學渣畢業,近乎零基礎,求大神指明方向!

    面試老總出的題目,用vision模塊編程,外置攝像頭,發現ThinkPad標識中事先去除的紅點,學渣畢業,近乎零基礎,求大神指明方向
    發表于 02-23 09:15

    labview 模態分析

    用labview進行模態分析,有很多問題,望高手指點一二力錘激勵信號+加速度傳感器信號,請問下,labview什么控件可以計算系統的模態還是說僅僅兩路信號是分析不了模態的。
    發表于 06-24 11:50

    航空電子設備PCB組件的實驗模態分析

    就是通過求解系統的特征方程,一般自由度系統的特征方程可以成式(1)所示的形式,來得到系統的特征值和特征向量,亦即振動系統固有頻率和振型?! ∈街?,[M]-系統的質量矩陣,有限元模態分析中由單元質量矩陣
    發表于 09-13 16:40

    LMS Virtual Lab 流固模態分析

    LMS Virtual Lab 流固模態分析的主要步驟:1、設置材料、屬性、約束條件,進行結構有限元模態分析。注意:模態計算的頻率范圍不要太小,否則可能計算錯誤!2、對流體進行模態分析
    發表于 05-29 06:59

    簡單的模型進行流固耦合的模態分析

    。聲腔的第一階自由模態剛體模態,聲腔各點的聲壓幅值相同;結構自由模態前6階6個自由度的剛體
    發表于 07-07 17:15

    松靈新品丨全球首款模態?ROS開發平臺LIMO來了,將聯合古月居打造精品課程 精選資料分享

    地形通過性和場景的適應性一直是無人駕駛、機器人等場景化所需要突破的難題。通過多模態運動融合,提高維度運動的柔性適應能力是一種理想的解決
    發表于 08-30 08:39

    CSI工作模態分析

    CSI拓撲CSI開關狀態CSI工作模態分析CSI與VSI的聯系
    發表于 11-15 07:38

    神經模態芯片發展的方向

    神經模態芯片的發展方向首先是規?;?,即擴大神經元的規模,這也是Intel和IBM等大廠主要押注的方向。
    的頭像 發表于 08-09 18:48 ?2486次閱讀

    模態分析定義以及模態假設理論

    模態分析的經典定義為,將線性定常系統振動微分方程組中的物理坐標變換為模態坐標,使方程組解耦,成為一組以模態坐標及模態參數描述的獨立方程,以便求出系統的
    的頭像 發表于 04-26 10:43 ?1883次閱讀

    如何利用LLM做多模態任務?

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力,但目前還未開放
    的頭像 發表于 05-11 17:09 ?721次閱讀
    如何利用<b class='flag-5'>LLM</b>做多<b class='flag-5'>模態</b>任務?

    邱錫鵬團隊提出SpeechGPT具有內生跨模態能力的大語言模型

    雖然現有的級聯方法或口語語言模型能夠感知和生成語音,但仍存在一些限制。首先,在級聯模型中,LLM 僅充當內容生成器。由于語音和文本的表示沒有對齊,LLM 的知識無法遷移到語音模態中。
    的頭像 發表于 05-22 10:19 ?452次閱讀
    邱錫鵬<b class='flag-5'>團隊</b><b class='flag-5'>提出</b><b class='flag-5'>SpeechGPT</b>:<b class='flag-5'>具有</b>內生跨<b class='flag-5'>模態</b><b class='flag-5'>能力</b>的大語言模型

    如何利用LLM做多模態任務?

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力,但目前還未開放
    的頭像 發表于 05-22 15:57 ?561次閱讀
    如何利用<b class='flag-5'>LLM</b>做多<b class='flag-5'>模態</b>任務?

    大模型+多模態的3種實現方法

    我們知道,預訓練LLM已經取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(包括圖像、語音、視頻模態)的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨
    的頭像 發表于 12-13 13:55 ?935次閱讀
    大模型+多<b class='flag-5'>模態</b>的3種實現方法

    從Google多模態大模型看后續大模型應該具備哪些能力

    前段時間Google推出Gemini多模態大模型,展示了不凡的對話能力和多模態能力,其表現究竟如何呢?
    的頭像 發表于 12-28 11:19 ?600次閱讀
    從Google多<b class='flag-5'>模態</b>大模型看后續大模型應該具備哪些<b class='flag-5'>能力</b>
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>