Meta开源文字转音效、配乐的AI框架AudioCraft

PSN • 2025年1月8日 14:15 • 达人投稿

Meta周三宣布开源可以输入文字生成音乐的AI框架AudioCraft，让不会谱曲或不懂音乐的游戏或VR开发人员，也能制作精彩的音效或配乐。

AudioCraft是一个开发框架。经训练后，就能根据用户输入的文字，产生高质量及逼真的声音或音乐。 AudioCraft包含三个模型，MusicGen、AudioGen和EnCodec。其中MusicGen以Meta自有及专属授权音乐训练而成，可以文字生成音乐，AudioGen是以公开声音资料集训练，能生成音效。 MusicGen和AudioGen是Meta去年分别于6月及10月发表的模型。

Encodec则是去年11月发表的声音压缩技术，号称压缩效果是MP3的10倍。 AudioCraft包含的Encodec解码技术为新版本，较前版减少压缩失真率。

经过预训练的AudioGen模型可产生环境音效及声音，如狗吠、汽车喇叭、木阶梯上楼声等。 Meta指出，开源AudioGen旨在提供研究并促进产业界的了解，允许开发商以自有数据集训练自己的模型。

Meta也说明AudioGen和传统生成音乐的AI模型不同。传统训练音乐生成AI模型，是通过音乐的象征表现方式，如MIDI或钢琴打孔纸卷。但是此类方法无法完全掌握音乐表现的细微差异及风格元素。进阶一点的是用自我监督式音频表示法学习（audio representation learning）及多种阶层式（cascaded model）模型来产生音乐，将原始音乐输入复杂系统以抓取讯号较长范围的结构，以利生成高质量声音，但效果仍然有待改进。

Meta表示，AudioCraft家族模型则简化音频生成模型的整体设计，让用户以自然语言输入，不需写程序，而生成高质量且品质稳定的声音，涵括音效及配乐，不但生成音频容易、快速、也能重复使用，还具有压缩音频算法，适合不同需求的用户。

Meta的竞争对手也推出了音频生成AI模型。 OpenAI 2020年发布音乐生成的机器学习框架Jukebox，而Google今年5月也公布了MusicLM。而一个AI平台Riffusion则以Stable Diffusion的AI模型为基础，提供以文字生成音乐的服务。

这是Meta开放使用的最新AI模型。上周Meta也联手微软公布了可免费商用的大型文字语言模型（Large Language Model）Llama-2。