NVIDIA Editor’s Day 2025：GeForce RTX 50 系列 Blackwell 架构多面相再进化

NVIDIA 于 Editor’s Day 不仅介绍该系列显卡的规格变化，也提供省电机制的说明。

因应导入 Neural Rendering

NVIDIA 于 Editor’s Day 即说道，目前我们对于画面品质的追求，已大幅度超越摩尔定律能够提供的运算能力，导入 Neural Rendering 势在必行。用于 GeForce RTX 50 系列显卡的 Blackwell 架构，由于其张量核心 Tensor Core 新增支持 FP4 浮点运算，整张显卡全部加总后的运算能力甚至高达 4000 AI TOPS（以最高阶 GeForce RTX 5090 计）。

▼ NVIDIA 认为，在这后摩尔定律时代，导入 Neural Rendering 是个不错的解方。

▼ Blackwell 新增、改善许多特点，除了改采 GDDR7 视频内存之外，其 Tensor Core 也支持 FP4 浮点运算，全部加总提供最高达 4000 AI TOPS。

NVIDIA Editor's Day 2025：GeForce RTX 50 系列 Blackwell 架构多面相再进化

▼ Blackwell 的张量核心支持 FP4 符点运算，相较第一世代 Pascal 张量核心可达成 32 倍的吞吐运算量。

由于导入Neural Rendering，Blackwell架构的串流多处理器 Streaming Multiprocessor连带也出现一些变化，与张量核心Tensor Core更为紧密的结合，以便在传统渲染绘图管线的中段导入AI相关功能，且着色器核心Shader Core也不再区分可以处理INT32 /FP32以及仅能处理FP32的部分， Blackwell 的 Shader Core 一律均可操作 INT32 / FP32 资料。

▼ Blackwell 进一步结合传统着色器核心和张量核心，打造出 Neural Shader，且内部着色器核心均可支持 INT32 / FP32 运算。

▼ 由于 Neural Shader 会有多种运算作业混用的情形，NVIDIA 也为此打造出 Shader Execution Reordering 功能，将不同的工作分配到着色器核心或是张量核心。

更有效率的 RT 核心

RT 核心部分，新增支持 Linear-swept Spheres，光线、路径与三角形相交的检测如今能够以丛集（cluster）的方式进行，提升检测时的效能。另外也有三角形丛集解压缩引擎，其目的同样是以较具效率的方式执行 BVH 遍历并节省内存使用率。

▼ RT 核心也有不少的新增功能，主要提升检测光线、路径与三角形相交的效能。

▼ Blackwell 相较于首次加入 RT 核心的 Turing 世代，其光线、路径与三角形相交的检测效能大约提升至 8 倍，相较前一世代 Ada Lovelace 亦可节省约 25% 内存使用率。

首次使用GDDR7

Blackwell 在整体芯片外的优势，就是创新抢先采用 GDDR7 视频存储器。虽然GDDR7在信号调变部分采用PAM3,2个符传输3 bit，相较与Micron合作开发的GDDR6X采用PAM4,1个符即传输2 bit来的少，但相对而言简化后的实体层能够降低耗电，运作时脉也会再次推升。

▼ Blackwell 在视讯内存部分将首采 GDDR7，使用 PAM3 调变。

NVIDIA 预测到 AI 在游戏内的应用越来越普及之时，该如何分配显示卡内部多样化工作的问题，如游戏 AI 对话回应不可过慢、或是 DLSS Multi Frame Generation 每张画面须拥有一致的生成时间…… 等，因此导入人工智能管理处理器 AI Management Processor，可以根据现况调整不同作业的优先权，维持服务质量 Quality of Service。

▼ 人工智能管理处理器 AI Management Processor 能够依据现况调整运算作业的优先权，提升对话模型的反应速度，并提供一致的画面生成时间。

提升电源效率

效能上的提升之外，Blackwell 同样在电源效率上下了不功夫，且不仅止于笔记本电脑版本或是 Max-Q，GeForce RTX 50 系列台式版本同样也享有这些福利。首先是针对闲置运算单元部分，原先已有时脉闸控 clock gating、电源闸控 power gating，Blackwell 再加入电源轨闸控 rail gating。

▼ Blackwell 新增电源轨闸控 rail gating，可单独微调作业较不繁琐区域的供电状况。

NVIDIA 号称 Blackwell 时脉调整速度相较于 Ada Lovelace 快上千倍，进入低电源状态的睡眠、唤醒速度也提升数个量级。由于时脉调整、进出低电源状态的速度变快，如今就可以更为积极地调降时钟、进入低电源状态，而不影响实际效能。 NVIDIA 表示这不仅能够节约 50% 的能量消耗（相较于 Ada Lovelace 进入深度睡眠的时间），同时也受惠于时脉调整速度，可以更快地迎合运算需求。

▼ Blackwell 时脉调整速度相较 Ada Lovelace 快上千倍，不仅能够省电，也可以迎合突增的运算需求提供更佳的效能。

▼ 相较于 Ada Lovelace，Blackwell 进入深层睡眠的速度更快，相对而言可以省下 50% 能源消耗。

多媒体、显示引擎更新

对于创作者而言，若是硬件支持视讯编码作业，即可省下不小的 CPU 负担，并加快创作问世的速度。 GeForce RTX 50 系列虽说尚不支持已在Intel 代号 Lunar Lake 上获得支持的 VVC / H.266，却也通过支持 MV-HEVC（Multiview-High Efficiency Video Coding）的方式将多视角视频纳入旗下，AV1 支持性同时提升至 UHQ 超高画质。（注：最高阶 GeForce RTX 5090 共有 3 组第九代 NVENC、2 组第六代 NVDEC）

至于早已在Intel内置显示多媒体引擎获得支持的4：2：2色度取样（YCbCr比例），NVIDIA终于在Blackwell世代当中提供支持，相较4：2：0纪录更多色彩资讯，提升画面品质。显示输出引擎同时升级至DisplayPort 2.1 UHBR20，单一通道支持20Gbps带宽，单一线材具备4通道即可达80Gbps。用于检测实际画面输出延迟的高速硬件 Flip Metering 也位于此，为多帧生成 Multi Frame Generation 提供数据反馈。

▼ GeForce RTX 50 系列在视频编码、解码器部分虽称不上是大刀破斧，但总算是把 4：2：2 色度取样纳入了。

持续精进的 Founders Edition 散热设计

自从 GeForce RTX 20 系列世代开始，俗称的「公版卡」Founders Edition 就舍弃可以将显卡废热确实排出机壳，但噪音表现却不慎理想的鼓风扇 blower 设计，陆续转往一般的轴流风扇设计。 GeForce RTX 30 系列之后更导入穿透式散热鳍片设计，风流能够直接吹过散热鳍片不受到任何的阻挡。

直至GeForce RTX 50系列，Founders Edition采用更为激进的作法，将主要乘载GPU封装、内存、电源供应转换的电路板设计得十分小巧，腾出空间装上2组穿透式散热设计，即便是应付TGP达575W的GeForce RTX 5090，仍旧可以达成2-slot外形设计，并符合SFF-Ready规范，符合迷你电脑爱好者的需求。