<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

Meta開源文本如何生成音樂大模型

年初，谷歌推出了音樂生成大模型 MusicLM，效果非常不錯。有人稱這比大火的 ChatGPT 還重要，幾乎解決了音樂生成問題。近日，Meta 也推出了自己的文本音樂生成模型 MusicGen，并且非商業用途免費使用。

在進入正文前，我們先聽兩段 MusicGen 生成的音樂。我們輸入文本描述「a man walks in the rain, come accross a beautiful girl, and they dance happily」然后嘗試輸入周杰倫《七里香》歌詞中的前兩句「窗外的麻雀在電線桿上多嘴，你說這一句很有夏天的感覺」（支持中文）試玩地址：https://huggingface.co/spaces/facebook/MusicGen 文本到音樂是指在給定文本描述的情況下生成音樂作品的任務，例如「90 年代吉他即興搖滾歌曲」。作為一項具有挑戰性的任務，生成音樂要對長序列進行建模。與語音不同，音樂需要使用全頻譜，這意味著以更高的速率對信號進行采樣，即音樂錄音的標準采樣率為 44.1 kHz 或 48 kHz，而語音的采樣率為 16 kHz。

此外，音樂包含不同樂器的和聲和旋律，這使音樂有著復雜的結構。但由于人類聽眾對不和諧十分敏感，因此對生成音樂的旋律不會有太大容錯率。當然，以多種方法控制生成過程的能力對音樂創作者來說是必不可少的，如鍵、樂器、旋律、流派等。最近自監督音頻表示學習、序列建模和音頻合成方面的進展，為開發此類模型提供了條件。為了使音頻建模更加容易，最近的研究提出將音頻信號表示為「表示同一信號」的離散 token 流。這使得高質量的音頻生成和有效的音頻建模成為可能。然而這需要聯合建模幾個并行的依賴流。 Kharitonov 等人 [2022]、Kreuk 等人 [2022] 提出采用延遲方法并行建模語音 token 的多流，即在不同流之間引入偏移量。Agostinelli 等人 [2023] 提出使用不同粒度的多個離散標記序列來表示音樂片段，并使用自回歸模型的層次結構對其進行建模。同時，Donahue 等人 [2023] 采用了類似的方法，但針對的是演唱到伴奏生成的任務。最近，Wang 等人 [2023] 提出分兩個階段解決這個問題：限制對第一個 token 流建模。然后應用 post-network 以非自回歸的方式聯合建模其余的流。

本文中，Meta AI 的研究者提出了 MUSICGEN，這是一種簡單、可控的音樂生成模型，能在給定文本描述的情況下生成高質量的音樂。論文地址：https://arxiv.org/pdf/2306.05284.pdf 研究者提出一個對多個并行聲學 token 流進行建模的通用框架，作為以前研究的概括 (見下圖 1)。為提高生成樣本的可控性，本文還引入了無監督旋律條件，使模型能夠根據給定和聲和旋律生成結構匹配的音樂。本文對 MUSICGEN 進行了廣泛的評估，所提出的方法在很大程度上優于評估基線：MUSICGEN 的主觀評分為 84.8 (滿分 100 分)，而最佳基線為 80.5。此外，本文還提供一項消融研究，闡明了每個組件對整體模型性能的重要性。最后，人工評估表明，MUSICGEN 產生了高質量的樣本，這些樣本在符合文本描述，在旋律上也更好地與給定的和聲結構對齊。 ? 本文的主要貢獻有如下幾點： ?

提出了一個簡單高效的模型：可以在 32khz 產生高質量的音樂。MUSICGEN 可以通過有效的碼本交錯策略，用單階段語言模型生成一致的音樂；

提出一個單一的模型，進行文本和旋律條件生成，其生成的音頻與提供的旋律是一致的，并符合文本條件信息；

對所提出方法的關鍵設計選擇進行了廣泛的客觀及人工評估。

方法概覽

MUSICGEN 包含一個基于自回歸 transformer 的解碼器，并以文本或旋律表示為條件。該（語言）模型基于 EnCodec 音頻 tokenizer 的量化單元，它從低幀離散表示中提供高保真重建效果。此外部署殘差向量量化（RVQ）的壓縮模型會產生多個并行流。在此設置下，每個流都由來自不同學得碼本的離散 token 組成。以往的工作提出了一些建模策略來解決這一問題。研究者提出了一種新穎的建?？蚣?，它可以泛化到各種碼本交錯模式。該框架還有幾種變體?；谀Ｊ?，他們可以充分利用量化音頻 token 的內部結構。最后 MUSICGEN 支持基于文本或旋律的條件生成。 音頻 tokenization 研究者使用了 EnCodec，它是一種卷積自編碼器，具有使用 RVQ 量化的潛在空間和對抗重建損失。給定一個參考音頻隨機變量 X ∈ R^d?f_s，其中 d 表示音頻持續時間，f_s 表示采樣率。EnCodec 將該變量編碼為幀率為 f_r ? f_s 的連續張量，然后該表示被量化為 Q ∈ {1, . . . , N}^K×d?f_r，其中 K 表示 RVQ 中使用的碼本數量，N 表示碼本大小。

碼本交錯模式

精確扁平化自回歸分解。自回歸模型需要一個離散隨機序列 U ∈ {1, . . . , N}^S 和序列長度 S。按照慣例，研究者將采用 U_0 = 0，這是一個確定性的特殊 token，表示序列的開始。然后他們可以對分布進行建模。不精確的自回歸分解。另一種可能是考慮自回歸分解，其中一些碼本需要進行并行預測。比如定義另一個序列，V_0 = 0，并且 t∈ {1, . . . , N}, k ∈ {1, . . . , K}, V_t,k = Q_t,k。當刪除碼本索引 k 時（如 V_t），這代表了時間為 t 時所有碼本的串聯。任意碼本交錯模式。為了試驗此類分解，并準確測量使用不精確分解的影響，研究者引入了碼本交錯模式。首先考慮? = {(t, k) : {1, . . . , d?f_r}, k ∈ {1, . . . , K}}，它是所有時間步和碼本索引對的集合。碼本模式是序列 P=(P_0, P_1, P_2, . . . , P_S)，其中 P_0 = ?,，并且 0 < i ≤ S, P_i ? ?，這樣 P 是?的分區。研究者通過并行地預測 P_t 中的所有位置來建模 Q，并以 P_0, P_1, . . . , P_T 中的所有位置為條件。同時考慮到實際效率，他們只選擇了「每個碼本在任何 P_s 中最多出現一次」的模式。 ?

模型條件化

文本條件化。給定與輸入音頻 X 匹配的文本描述，研究者計算條件張量 C ∈ R^T_C ×D，其中 D 是自回歸模型中使用的內部維數。旋律條件化。雖然文本是當今條件生成模型的主要方法，但更自然的音樂方法是以來自另一個音軌甚至口哨或哼唱的旋律結構為條件。這種方法還允許對模型輸出進行迭代優化。為了支持這一點，研究者嘗試通過聯合調節輸入的色譜圖和文本描述來控制旋律結構。再最初的試驗中，他們觀察到以原始色譜圖為條件通常會重建原始樣本，導致過擬合。為此，研究者在每個時間步中選擇主要的時頻 bin 來引入信息瓶頸。

模型架構

碼本投影和位置嵌入。給定一個碼本模式，在每個模式步 P_s 中只有一些碼本的存在。研究者從 Q 中檢索出對應 P_s 中索引的值。每個碼本在 P_s 中最多出現一次或根本不存在。 Transformer 解碼器。輸入被饋入到具有 L 層和 D 維的 transformer 中，每一層都由一個因果自注意力塊組成。然后使用一個跨注意力塊，該塊由條件化信號 C 提供。當使用旋律調節時，研究者將條件化張量 C 作為 transformer 輸入的前綴。 Logits 預測。在模式步 P_s 中，transformer 解碼器的輸出被轉換為 Q 值的 Logits 預測。每個碼本在 P_s+1 中最多出現一次。如果碼本存在，則從 D 通道到 N 應用特定于碼本的線性層來獲得 Logits 預測。

實驗結果 音頻 tokenization 模型。研究對 32 kHz 單聲道音頻使用非因果五層 EnCodec 模型，其步幅為 640，幀率為 50 Hz，初始隱藏大小為 64，在模型的五層中每層都增加一倍。

變壓器模型，研究訓練了不同大小的自回歸 Transformer 模型：300M, 1.5B, 3.3B 參數。

訓練數據集。研究使用 2 萬小時的授權音樂來訓練 MUSICGEN。詳細來說，研究使用了一個包含 10K 個高質量曲目的內部數據集，以及分別包含 25K 和 365K 只有樂器曲目的 Shutte rStock 和 Pond5 音樂數據集。

評估數據集。研究在 MusicCaps 基準上對所提出的方法進行了評估，并與之前的工作進行了比較。MusicCaps 是由專家音樂家準備的 5.5K 樣本 (10 秒長) 和跨流派平衡的 1K 子集組成的。下表 1 給出了所提方法與 Mousai、Riffusion、MusicLM 和 Noise2Music 的比較。結果表明，在音頻質量和對提供的文本描述的一致性方面，MUSICGEN 的表現優于人類聽眾的評估基線。Noise2Music 在 MusicCaps 上的 FAD 方面表現最好，其次是經過文本條件訓練的 MUSICGEN。有趣的是，添加旋律條件會降低客觀指標，但是并不會顯著影響人類評分，且仍然優于評估的基線。 ? 研究者在給出的評估集上使用客觀和主觀度量，在文本和旋律表示的共同條件下評估 MUSICGEN，結果見下表 2。結果表明，用色譜圖條件化訓練的 MUSICGEN 成功地生成了遵循給定旋律的音樂，從而可以更好地控制生成的輸出。MUSICGEN 對于在推理時使用 OVL 和 REL 丟掉色度具有魯棒性。 ? ? 碼本交錯模式的影響。研究者使用 2.2 節中的框架評估了各種碼本模式，K = 4，由音頻 tokenization 模型給出。本文在下表 3 中報告了客觀和主觀評價。雖然扁平化改善了生成效果，但它的計算成本很高。使用簡單的延遲方法，只需花費一小部分成本就能得到類似的性能。 ? ? 模型大小的影響。下表 4 報告了不同模型大小的結果，即 300M、1.5B 和 3.3B 參數模型。正如預期的那樣，擴大模型大小可以得到更好的分數，但前提是需要更長的訓練和推理時間。主觀評價方面，在 1.5B 時整體質量是最優的，但更大的模型可以更好地理解文本提示。 ?
責任編輯：彭菁

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

建模

建模

+關注

關注
1

文章
282

瀏覽量
60530
開源

開源

+關注

關注
3

文章
3009

瀏覽量
41751
模型

模型

+關注

關注
1

文章
2751

瀏覽量
47810
Meta

Meta

+關注

關注
0

文章
176

瀏覽量
11184

原文標題：Meta開源文本生成音樂大模型，我們用《七里香》歌詞試了下

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

基于生成式對抗網絡的深度文本生成模型

評論，對音樂作品自動生成評論可以在一定程度上解決此問題。在在線唱歌平臺上的評論文本與音樂作品的表現評級存在一定的關系。因此，研究考慮音樂作品

發表于 04-12 13:47 ?15次下載

基于<b class='flag-5'>生成</b>式對抗網絡的深度<b class='flag-5'>文本生成</b><b class='flag-5'>模型</b>

如何去解決文本到圖像生成的跨模態對比損失問題？

從文本到圖像的自動生成，如何訓練模型僅通過一段文本描述輸入就能生成具體的圖像，是一項非常具有挑戰性的任務。

的頭像

發表于 06-15 10:07 ?2450次閱讀

如何去解決<b class='flag-5'>文本</b>到圖像<b class='flag-5'>生成</b>的跨模態對比損失問題？

受控文本生成模型的一般架構及故事生成任務等方面的具體應用

來自：哈工大訊飛聯合實驗室本期導讀：本文是對受控文本生成任務的一個簡單的介紹。首先，本文介紹了受控文本生成模型的一般架構，點明了受控文本生成模型

發表于 10-13 09:46 ?3134次閱讀

ELMER: 高效強大的非自回歸預訓練文本生成模型

每個單詞都依賴于輸入文本與之前生成的單詞。自回歸生成模型只建模了前向的單詞依賴關系，依次生成的結構也使得自回歸

發表于 03-13 10:39 ?1016次閱讀

基于文本到圖像模型的可控文本到視頻生成

的文本到視頻模型需要大量高質量的視頻和計算資源，這限制了相關社區進一步的研究和應用。為了減少過度的訓練要求，我們研究了一種新的高效形式：基于文本到圖像模型的可控

發表于 06-14 10:39 ?618次閱讀

Meta開源I-JEPA，“類人”AI模型

Meta 宣布推出一個全新的 AI 模型 Image Joint Embedding Predictive Architecture (I-JEPA)，可通過對圖像的自我監督學習來學習世界的抽象表征

發表于 06-18 17:47 ?833次閱讀

語音領域的GPT時刻：Meta 發布「突破性」生成式語音系統，一個通用模型解決多項任務

繼開源 LLaMA 之后，Meta 在生成式 AI 方向又公布一項重大研究。我們知道，GPT、DALL-E 等大規模生成模型徹底改變了自然

發表于 06-18 21:30 ?462次閱讀

微軟聯合Meta發布免費商業應用的開源AI模型Llama 2

在 Meta 看來，「開放的方法是當今人工智能模型開發的正確方法，特別是在技術快速發展的生成領域。通過公開提供人工智能模型，它們可以使每個人受益。為企業、初創企業、企業家和研究人員提供

發表于 07-19 16:22 ?542次閱讀

阿里云開源AI大模型，挑戰Meta、OpenAI

創新 · 挑戰Meta：阿里云開源通義千問大模型 Google的RT-2：當人工智能遇上機器人在這個充滿各種技術創新的時代，Google再次引領潮流，將AI與機器人技術相結合，為我們帶來了一個全新

發表于 08-04 18:45 ?559次閱讀

Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

今天，Meta發布了Code Llama，一款可以使用文本提示生成代碼的大型語言模型（LLM）。

發表于 08-25 09:06 ?1009次閱讀

Meta推出最新版AI代碼生成模型Code Llama70B

Meta近日宣布了其最新版本的AI代碼生成模型Code Llama70B，并稱其為“目前最大、最優秀的模型”。這一更新標志著Meta在AI代

發表于 01-30 18:21 ?897次閱讀

Meta發布開源大模型Code Llama 70B

近日，Meta宣布推出了一款新的開源大模型Code Llama 70B，這是其“Code Llama家族中體量最大、性能最好的模型版本”。這款新模型

發表于 01-31 09:24 ?418次閱讀

Meta發布CodeLlama70B開源大模型

Meta發布CodeLlama70B開源大模型 Meta發布了開源大模型CodeLlama70B

發表于 01-31 10:30 ?1004次閱讀

Meta推出最強開源模型Llama 3 要挑戰GPT

Meta推出最強開源模型Llama 3 要挑戰GPT Facebook母公司Meta Platforms（META.US）推出了

發表于 04-19 17:00 ?535次閱讀

Meta Llama 3基礎模型現已在亞馬遜云科技正式可用

亞馬遜云科技近日宣布，Meta公司最新發布的兩款Llama 3基礎模型——Llama 3 8B和Llama 3 70B，現已正式上線并集成至Amazon SageMaker JumpStart平臺。這兩款先進的生成文本

發表于 05-09 10:39 ?124次閱讀

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 一個給NLP領域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 什么是RAG，RAG學習和實踐經驗
New MOE與MOT：提升LLM效能的關鍵策略比較

精選推薦
更多

文章

資料

帖子

全志T527芯片詳解：計算性能與高清圖像編解碼

全志科技
1小時前

149 閱讀

基于RL78/G16 FPB的觸摸樣例工程創建演示流程

瑞薩MCU小百科
2小時前

141 閱讀

5.20世界計量日 | 精彩回顧計量展，共期計量新發展

深圳航智
5小時前

102 閱讀

如何根據需求選擇合適的三坐標測量機？

中圖儀器
5小時前

164 閱讀

1分鐘教你在buildroot系統中使用TRIM

觸覺智能
7小時前

138 閱讀

極具靈活性的電池充電器解決方案

nana
1254 KB

免費

96下載

deer-wms立體倉庫管理系統

劉剛
5.28 MB

免費

3下載

單相多功能計量芯片HT7017用戶手冊

斗地主之神
0.95 MB

免費

9下載

RustDesk開源遠程桌面軟件

陳秀英
0.62 MB

免費

0下載

Hippo4J動態可觀測線程池框架

卞輪輝
1.89 MB

免費

4下載

5G智能物聯網課程之Aidlux下人工智能開發（SC171開發套件V2）

蓉兒蓉兒蓉
11天前

486 閱讀

飛凌嵌入式ElfBoard ELF 1板卡-交叉編譯鏈描述及使用方法

jf_13411809
1天前

329 閱讀

開源項目！設計一款智能手語翻譯眼鏡

ElecFans小喇叭
1天前

222 閱讀

S32K376 電池管理系統和車輛控制單元概念驗證

硬件工程師1
1天前

251 閱讀

第一次啟動StarFive VisionFive 2， U-Boot總是報錯，為什么？

風來吳山
1天前

168 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看