近日,騰訊 AI Lab 推出并開源了一款名為 SongGeneration 的音樂生成大模型,旨在解決音樂生成領域長期存在的音質、音樂性和生成速度三大核心難題。該模型基于創(chuàng)新的 LLM-DiT 融合架構,通過對海量中英文歌曲的深度預訓練,展現出了卓越的音樂生成能力。SongGeneration 不僅支持文本控制、多軌合成與風格跟隨等多元功能,更致力于構建面向未來的音樂 AI 生產力工具,推動 “人人皆可創(chuàng)作音樂” 的愿景逐步落地。

SongGeneration 具備一系列強大的功能特性,為音樂創(chuàng)作帶來了全新可能。在文本控制方面,用戶只需輸入如 “開心 流行”“激烈 搖滾” 等關鍵詞文本,模型就能精準生成符合特定風格和情緒的完整音樂作品。風格跟隨功能則允許用戶上傳參考音頻,模型可據此生成風格一致的全長新曲,覆蓋流行、搖滾、中國風等多種音樂流派。
多軌生成功能是 SongGeneration 的一大亮點,它能夠自動生成分離的人聲與伴奏軌道,確保旋律、結構、節(jié)奏與配器之間達到高度匹配。同時,模型支持基于參考音頻的音色跟隨功能,可實現 “音色克隆” 級別的人聲表現?;?LLM-DiT 融合架構,SongGeneration 在保持快速生成速度的同時,顯著提升了音質表現,實現了質量與效率的平衡。
SongGeneration 的訓練架構由數據管線和生成模型兩部分構成。數據管線部分搭建了一套包含音伴分離、結構分析、歌詞識別等模塊的音樂數據處理系統(tǒng),能從原始音頻中精準提取歌詞、結構、曲風和音質等標簽數據。生成模型則由 codec、LM、FM、VAE 等部分組成,每個模塊單獨訓練。
其中,Music Codec 用于對音樂進行編解碼,可將 48kHz 的雙通道音樂以超低比特率壓縮成 25Hz 的離散表征,并實現高保真還原;Music LM 則負責根據用戶指令生成完整的歌曲。此外,SongGeneration 創(chuàng)新性地提出了 “混合優(yōu)先,雙軌其次” 的多類別 token 并行預測策略,通過語言模型對混合 token 進行預測,指導旋律、節(jié)奏、節(jié)拍等高級結構信息的整體安排,再通過擴展的自回歸解碼器進一步建模雙軌 token,有效提升了音質和音樂性。
該模型還擁有多項創(chuàng)新點,除了實現音質與速度的平衡外,其推出的面向開源社區(qū)的友好版本,有助于構建開放、靈活、可持續(xù)的音樂 AI 生態(tài)系統(tǒng)。值得一提的是,SongGeneration 創(chuàng)新性地提出了業(yè)內開源模型中最低比特率、最低碼率的雙通道 48kHz 高質量音樂編解碼器。 在應用領域,SongGeneration 有著廣泛的發(fā)展空間。它可為短視頻、游戲、虛擬人演出等內容創(chuàng)作平臺提供優(yōu)質的配樂和音效;能夠輔助音樂人進行作曲、編曲和混音等工作,提升創(chuàng)作效率;還可作為音樂教育工具,幫助學生探索不同的音樂風格和創(chuàng)作技巧;此外,根據用戶的情感或活動生成個性化音樂,也將為用戶帶來獨特的音樂體驗。
不過,SongGeneration 也存在一些有待優(yōu)化的地方。模型性能高度依賴訓練數據的質量和多樣性,在小眾或特定風格音樂的生成方面可能存在局限性;盡管生成速度有所提升,但仍需要較高的計算資源進行訓練和推理;在創(chuàng)意和原創(chuàng)性方面,目前還難以完全替代人類音樂人。
目前,SongGeneration 已正式開源,開發(fā)者可通過訪問項目地址獲取模型的代碼和預訓練權重。使用時,需按照項目文檔配置開發(fā)環(huán)境,包括安裝必要的依賴庫和框架,然后加載預訓練模型或根據需求進行微調,通過文本、音頻或 MIDI 文件等方式輸入生成指令,運行模型生成音樂作品,并根據需要進行后處理和優(yōu)化。
SongGeneration 的開源,為音樂 AI 領域的發(fā)展注入了新的活力。它不僅展現了騰訊 AI Lab 在音樂生成技術上的領先實力,也為開發(fā)者和音樂愛好者提供了一個創(chuàng)新的平臺,有望推動音樂 AI 生態(tài)系統(tǒng)的繁榮發(fā)展。隨著技術的不斷進步和完善,SongGeneration 有望在未來為音樂創(chuàng)作和體驗帶來更多驚喜。
來【龍頭AI網】了解最新AI資訊!
暫無評論
發(fā)表評論