TensorRT加速Stable Diffusion、RTX Video Super Resolution 更新发布。

生成式人工智能(AI) 是个人计算机计算技术史上最重要的趋势之一,促进游戏、创作、影像、生产力、开发等领域的发展。
GeForce RTX和NVIDIA RTX GPU,具备专用的AI处理器Tensor核心,直接为超过一亿台 Windows PC 和工作站带来生成式AI所需的动能。
日前宣布供数据中心使用的 TensorRT-LLM,也即将登陆 Windows 平台,让生成式 AI 在 PC 上的表现快上四倍。 TensorRT-LLM能为如 Llama 2 和 Code Llama 这一类最新大型语言模型(LLM)加速推论效能。
另外,NVIDIA还发布了帮助开发人员加速 LLM 运作的工具,包括使自定义模型能够兼容于TensorRT-LLM 的脚本、TensorRT 优化的开源模型,以及展示 LLM 反应速度和质量的开发人员参考项目等。
TensorRT 加速技术现在亦可用于 Automatic1111 所发布之热门 Web UI 图形化界面中的 Stable Diffusion。 与先前最快的执行速度相比,它可为生成式人工智能扩散模型加速高达两倍。
此外,RTX Video Super Resolution(VSR)1.5 版本同样包含于最新发布的Game Ready驱动程序中,也将会加入于十一月初发布的下一版本NVIDIA Studio驱动程序。
使用 TensorRT 增强 LLM 的能力
LLM创造出许多新的提高生产力应用案例 ,例如参与聊天、汇整文件和网络内容、起草电子邮件和博客的内容,也是人工智能新渠道和其他软件的核心,可自动分析数据与生成大量内容。
NVIDIA 用于加速人工智能推论的 TensorRT-LLM 库让开发人员与终端用户可以运用 LLM 的优势 ,在支持 RTX 的 Windows PC 上运行速度可提高四倍。
在处理批量较大的情况下,这种加速功能将让用户在使用更复杂的 LLM 时获得更好的体验,例如利用写作和编码助手同时输出多种自动完成的结果。 这能加快处理效能、提高品质,让用户可以选择最好的结果。
将 LLM 功能与其他技术进行整合之际,TensorRT-LLM 加速技术同样大有裨益,例如在检索增强生成(RAG)中,LLM 搭配向量库或向量数据库使用,RAG 使得 LLM 能够根据特定数据集(例如用户的电子邮件或网络上的文章)产生响应,以提供更有针对性的答案。
在实际应用中,当有人问 LLaMa 2 基础模型「《心灵杀手2(Alan Wake 2)》这款游戏里使用了 NVIDIA 的哪些技术」时,它给出的回答是「游戏尚未发布」,即很好地说明了这一点。

使用RAG与近期加载矢量库中的GeForce新闻报导内容,并在TensorRT-LLM加速技术的协助下,可更快速地生成更准确的答案。
相反,使用RAG与近期加载矢量库中的GeForce新闻报导内容,并连接到同一个Llama 2模型时,不仅能生成正确答案,即NVIDIA DLSS 3.5、NVIDIA Reflex和全光线追踪,而且在TensorRT-LLM加速技术的协助下,生成答案的速度更快,展现出速度加上熟练度将为用户提供更聪明的解决方案。
TensorRT-LLM将开放在英伟达开发者网站下载。 TensorRT 优化开源模型及使用 GeForce 新闻内容训练的 RAG 演示范例,可在 ngc.nvidia.com 及 GitHub.com/NVIDIA 上取得。
自动加速
Stable Diffusion 这一类扩散模型,广泛被用于想象和创造各式精美、新颖的艺术作品。 影像生成需要反复进行调整运算,可能得经过数百次调整才能获得完美的输出结果。 当在效能较不足的电脑来进行这项作业时,则可能需增加长达数小时的等待时间。
TensorRT 藉由层融合、精确校准、核心自动调整及其他功能以加速人工智能模型,显著提高推论效率和速度,这使得它成为执行实时应用和资源密集型任务时不可或缺的工具,现在 TensorRT 又将执行 Stable Diffusion 的速度提升一倍。
Stable Diffusion with TensorRT 加速技术兼容于 Automatic1111 所推出最受用户欢迎的 WebUI 图形化界面,能够协助用户更快地反复进行调整运算、减少等待电脑输出结果的时间,更迅速地产生出最终图像画面。 在 GeForce RTX 4090 上,它的运行速度比在搭载 Apple M2 Ultra 的 Mac 电脑上的最高执行速度快上七倍。 该扩充功能今日已开放下载。
在 Stable Diffusion 执行管道的 TensorRT 展示内容中,为开发人员介绍了如何准备扩散模型及使用 TensorRT 进行加速的参考实践内容。 有兴趣加速执行扩散处理管道,让应用程序更飞快进行推论的开发人员,则可以从这方面着手。
视频看起来更细腻锐利
人工智能所有用户在PC进行许多日常作业时,可以享受到更好的体验。 人们最常在PC上观看爱奇艺、Twitch、Prime Video、Disney+等许多来源的串流视频,而人工智能与RTX将再次提升这些串流视频的画质。
RTX VSR 是人工智能像素处理领域的一项突破性技术,能够减少或消除压缩视频时产生的失真,提高流视频内容的画质。 它还能让影像边缘更锐利,呈现更丰富的细节。
RTX VSR 1.5版现已正式发布,其利用最新版本的模型进一步提高图像质量,消除以原始分辨率播放内容的失真,并加入支持Turing架构的RTX GPU(包括专业版RTX和GeForce RTX 20系列GPU)。
重新训练 VSR 人工智能模型,有助于它学会准确辨识微妙细节和压缩失真之间的差异。 因此经过人工智能强化的影像,在放大影像分辨率的过程中能更准确地保留细节。 更细腻的细节得以更加清晰可见,整体影像看起来更清晰锐利。 1.5 版的新功能是消除以显示器原始分辨率播放视频所产生的失真。 最早发布的版本仅在放大影像分辨率时,让画面看起来更精美。 但现在,举例而言,将1080p分辨率的视频串流到1080p分辨率的显示器上播放时,由于减少了严重的失真,整体画面将显得更加流畅。

RTX VSR 消除以原始分辨率播放视频所产生的失真。
RTX VSR 1.5 版本已加入最新版本的 Game Ready 驱动程序,今日开放所有 RTX 用户下载,同时将在预计于十一月初推出的 NVIDIA Studio 驱动程序中提供。
RTX VSR 是 NVIDIA 软件、工具、函式库及 SDK 里的一员,如上述提及的其他项目,再加上 DLSS、Omniverse、AI Workbench 等众多其他软件,将共同协助让消费者享用到将四百多款支持人工智能的应用程序和游戏。
人工智能时代就在我们眼前。 RTX将助力推动人工智能时代发展的每一步。