在今年度的SIGGRAPH电脑绘图大会展开之前,NVIDIA表示将公布20篇关于以人工智能应用绘图的研究论文,其中包含能以人工智能技术让开发者、艺术创作者的构思想法变成2D、3D,或是对应超现实主义、奇幻风格的影像,甚至也能使其变成更真实的动态视频内容。

NVIDIA这些研究论文是与美国、欧洲及以色列多所大学合作,并且以自动生成式人工智能与神经图像运算技术构成,这些论文包含将文字转换为具个性化图像的生成式人工智能模型,以及将静止图像转换为3D对象的逆向渲染工具,或是使用人工智能技术,以惊人真实感模拟复杂3D元素的神经物理模型,并且包含可解锁实时生成、 人工智能技术产生视觉细节的神经渲染模型。
今年预计在SIGGRAPH上电脑绘图大会展示的研究进展,将帮助开发人员和企业快速生成合成资料,借此填充用于机器人和自动驾驶车辆培训的虚拟世界,甚至可以让艺术、建筑、平面设计、游戏开发和电影创作人更快地制作出用于分镜、预视和甚至视频制作的高品质视觉效果。
具有个人风格的人工智能:定制文字到图像模型
将文字转换为图像的生成式人工智能模型是创造概念艺术和对于电影、游戏和3D虚拟世界制作分镜表的强大工具。 将文字生成图像的人工智能工具,可以将像是「儿童玩具」之类的提示变成绒毛动物玩具、积木或拼图的图像,藉此让创作者可以从中获得灵感。
例如,某玩具品牌创意总监可能藉由新款泰迪熊策划一项广告活动,并且希望在不同情况下形象化该玩具,例如泰迪熊茶会。 为了在生成式人工智能模型的输出中实现这种级别的特异性,特拉维夫大学和NVIDIA的研究人员撰写了两篇SIGGRAPH研究论文,让用户能够提供让模型可以快速学习的图像范例。
第二篇论文则介绍一款名为「Perfusion」的高度紧凑模型,采用少量概念图像,让用户可将多个个性化元素 (例如特定的泰迪熊和茶壶)组合成一个人工智能生成的视觉效果:

提供3D世界内的服务:逆向渲染和角色创建的进展
一旦创作者构思出虚拟世界的概念艺术,下一步就是渲染环境并使用3D物体和角色进行填充。 NVIDIA Research通过人工智能技术,藉此缩减将2D图像和图像转换为3D的耗时过程,让创作者可以将其导入绘图应用程式进一步编辑。
与加州大学圣地亚哥分校的研究人员共同创作的第三篇论文,其中可通过单张2D肖像生成和渲染出逼真的3D头肩模型,藉此让3D头像创建与3D视讯会议变得更加容易,并且能在一般电脑桌面上执行,通过传统网络摄影机或智能手机摄影功能,即可生成逼真的或风格化的3D遥现(Telepresence)远程临场。
第四个项目则是与斯坦福大学合作,为3D角色带来逼真的动作。 研究人员建立了一个人工智能系统,该系统能够从真正的网球比赛的2D视频记录中学习一系列网球技巧,并且将动作应用于3D角色,而模拟的网球选手角色可精确地将球打到虚拟球场上的目标位置,甚至可以与其他角色进行长时间的回合比赛。
除了网球的测试案例外,这篇SIGGRAPH文章还探讨了如何在不使用昂贵的运动捕捉资料的情况下,创造出具有多种技能、并能进行真实运动的3D角色。
不失一根头发:神经物理学实现逼真的模拟
当3D角色生成后,艺术家可以添加像是头发这样逼真的细节,这对动画师来说是一个复杂且需要大量运算的挑战。
人类平均有10万根头发,每一根都会随着个人动作和周围环境而动态变化。 传统上,创作者使用物理公式来计算头发的运动,根据可用资源来简化或近似头发的运动,这就是为什么大制作电影中的虚拟角色拥有比实时游戏角色有更丰富头发细节。
第五篇论文则展示一种使用神经物理学的方法,可以高分辨率模拟数万根头发。 神经物理学是一种人工智能技术,它教导神经网络预测物体在现实世界中的运动方式。
该团队为实现完整规模头发的准确模拟提出了一种新颖的方法,专门针对现代GPU进行优化。 与最先进基于CPU的解算器相比,它提供了显著的效能提升,将模拟时间从多天减少到仅需几小时,同时提高了实时的头发模拟质量。 这种技术终于实现了物理精确与互动的头发造型。
神经渲染为实时绘图带来电影品质的细节
当一个虚拟环境被填充了动画3D物体和角色后,实时渲染会模拟光线通过虚拟场景反射的物理过程。 NVIDIA最近的研究显示,纹理、材料和体积的人工智能模型可以在实时渲染中提供电影等级的逼真视觉效果,并且能用于游戏和数字双生。
NVIDIA二十年前就发明了可编程的着色技术,使开发人员可以自定义绘图管道。 在这些最新的神经渲染发明中,研究人员通过运行在NVIDIA实时绘图管道内的AI模型来扩展可编程着色代码。
在第六篇SIGGRAPH论文中,NVIDIA将呈现神经纹理压缩,在不占用额外GPU内存的情况下,提供高达16倍的纹理细节。 神经纹理压缩可以大幅提升3D场景的真实感,如下图所示,这说明神经压缩纹理 (右)如何捕捉比先前格式更清晰的细节,在先前格式中文本保持模糊 (居中)。

第七篇论文介绍的是NeuralVDB,这是一种人工智能驱动的数据压缩技术,可使表示烟、火、云和水等体积资料所需的内存减少100倍。
NVIDIA还公布关于更多神经材料细节的研究,这些细节在最新的NVIDIA GTC主题演讲中已经展示。 该研究描述了一个人工智能系统,学习光如何从真实的多层材料反射,将这些资产的复杂性降低到实时运行的小型神经网络,使阴影处理速度提高10倍。
从这个神经网络渲染的茶壶中可以看出其逼真度,它准确地呈现了陶瓷、不完美的清釉、指纹、污迹甚至灰尘。
