微软提出NUWA-XL多模自动生成式人工智能模型,以16组描述句生成11分钟长度影片

微软亚洲研究院近期提出名为NUWA-XL的多模自动生成式人工智能模型,标榜能以16组描述句即可生成长达11分钟的视频内容。

937ga937ga937ga

微软亚洲研究院在2021年便提出多模自动生成式人工智能模型NUWA (女娲),能以自然语言描述生成文字、图像、视频内容,后续推出的升级版NUWA-Infinity更进一步将生成图像、视频分辨率提高。

而此次提出的NUWA-XL,则是建立在「扩散叠加」 (Diffusion over Diffusion)的运作架构之上,通过全域扩散模型 (Global Diffusion)生成视频所有时间范围内的关键画面,并且通过局部扩散模型 (Local Diffusion)依据填加关键画面邻近内容,藉此加快整体内容生成效率, 同时也确保生成内容连续性与完整性。

整体流程大约是先依照输入描述句生成关键画面,再依序针对关键画面生成相应视频,并且通过扩散模型增加视频内容长度,让视频最初生成的概略章节可以变成完整故事内容。 在演示内容中,微软以《摩登原始人》 (The Flintstones)动画为基础,自动生成全新动画内容。

fbntsfbntsfbnts

在微软此项技术中,原本生成1024个画面的平均推论时间需要7.55分钟,变成仅需花费26秒即可生成,整体速度提升高达94.26%。

不过,微软说明视频生成背后依然需要仰赖足够品质的视频内容训练,此次提出的NUWA-XL主要参考专业动画内容制作流程,藉由先生成关键画面,并且持续生成关键画面衍生内容,进而构成完整动画视频,并且确保内容连续性与生成品质,进而能加速内容生成速度。

(0)
老哥老哥

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注