Meta揭晓可快速产生清晰、自然,并且能在后续编辑、调整的语音内容生成模型

Meta稍早公布名为Voicebox的语音生成模型,将可通过Flow Matching算法,从大量原始音频与转录文字进行学习,进而生成自然生动的语音内容。

-

同时,Voicebox并未限制仅能用于特定领域的语音内容,通过足够音频与文字内容即可产生去除噪音、清晰语音,同时还能进行内容、风格转换,或是输出不同声音特色语音内容。

而藉由Flow Matching算法,即可直接从原始音频、文字内容进行学习,同时产生语音内容,无须像过往同类型语音生成模型必须事先完成资料学习训练,并且仅能针对单一语音内容进行训练操作。

在Flow Matching算法设计中,更能学习语音与文字之间差异,即便对应相同文字内容,但在不同语音呈现方式,例如语调、语速、口音或重音表现差异,会让相同文字内容有不同表意。

目前Voicebox是以累积5万小时的语音录音训练结果构成,其中涵盖英语、法语、西班牙语、德语、波兰语、葡萄牙语公开录音内容片段,以及对应文字内容,同时藉由自动生成人工智能运作模式,不仅能快速学习各类语音发音、朗读方式,只需输入一段语音样本与文字内容,就能以所输入语音样本风格朗读文字,甚至进行后续语调整。

但由于此模型可能会有被人滥用情况,因此目前Meta仅对外公布相关技术,并未公开相关模型与源代码内容。

(0)
游研哥游研哥

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注