Meta开源文字转音效、配乐的AI框架AudioCraft

Meta周三宣布开源可以输入文字生成音乐的AI框架AudioCraft,让不会谱曲或不懂音乐的游戏或VR开发人员,也能制作精彩的音效或配乐。

Meta开源文字转音效、配乐的AI框架AudioCraft

AudioCraft是一个开发框架。 经训练后,就能根据用户输入的文字,产生高质量及逼真的声音或音乐。 AudioCraft包含三个模型,MusicGen、AudioGen和EnCodec。 其中MusicGen以Meta自有及专属授权音乐训练而成,可以文字生成音乐,AudioGen是以公开声音资料集训练,能生成音效。 MusicGen和AudioGen是Meta去年分别于6月及10月发表的模型。

Encodec则是去年11月发表的声音压缩技术,号称压缩效果是MP3的10倍。 AudioCraft包含的Encodec解码技术为新版本,较前版减少压缩失真率。

经过预训练的AudioGen模型可产生环境音效及声音,如狗吠、汽车喇叭、木阶梯上楼声等。 Meta指出,开源AudioGen旨在提供研究并促进产业界的了解,允许开发商以自有数据集训练自己的模型。

Meta也说明AudioGen和传统生成音乐的AI模型不同。 传统训练音乐生成AI模型,是通过音乐的象征表现方式,如MIDI或钢琴打孔纸卷。 但是此类方法无法完全掌握音乐表现的细微差异及风格元素。 进阶一点的是用自我监督式音频表示法学习(audio representation learning)及多种阶层式(cascaded model)模型来产生音乐,将原始音乐输入复杂系统以抓取讯号较长范围的结构,以利生成高质量声音,但效果仍然有待改进。

Meta表示,AudioCraft家族模型则简化音频生成模型的整体设计,让用户以自然语言输入,不需写程序,而生成高质量且品质稳定的声音,涵括音效及配乐,不但生成音频容易、快速、也能重复使用,还具有压缩音频算法,适合不同需求的用户。

Meta的竞争对手也推出了音频生成AI模型。 OpenAI 2020年发布音乐生成的机器学习框架Jukebox,而Google今年5月也公布了MusicLM。 而一个AI平台Riffusion则以Stable Diffusion的AI模型为基础,提供以文字生成音乐的服务。

这是Meta开放使用的最新AI模型。 上周Meta也联手微软公布了可免费商用的大型文字语言模型(Large Language Model)Llama-2。

(0)
PSNPSN

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注