
NVIDIA RTX 40 SUPER 三部曲最终回! GeForce RTX 4080 SUPER显示卡正式登场,升级至AD103-400绘图核心,CUDA Cores增量至10,240个,GDDR6X内存速度提升至23Gbps,更重要是MSPR定价由US$1,199降至US$ 999。 本次找来了GeForce RTX 4080 SUPER Founder Edition显示卡,与RTX 4080及RTX 4090作对比测试,看一看到底效能到底差多少。
RTX 40 SUPER压轴RTX 4080 SUPER
NVIDIA 31日正式发布全新高端GeForce RTX 4080 SUPER显示卡,这是RTX 40 SUPER三部曲的最终章,规格上RTX 4080SUPER与RTX 4080差异较少,CUDA Cores数目提升了5.27%,内存接口与容量不变,存储器颗粒时脉提升约2.68%,因此不要期待RTX 4080SUPER性能会比RTX 4080 快多少,不过 NVIDIA 正式RTX 4080 SUPER 的 MSRP 售价由 US$ 1,199 降至 US$ 999,售价才是它的卖点。

有人说老黄的刀法越来越离谱,或许是 AMD 与 Intel 都不够强,令 NVIDIA 无所顾忌,但数据却是骗不了人,对比 RTX 20、RTX 30 与 RTX 40 世代的芯片规格,中高阶型号的芯片规格与 Full Chip 的差异越来越大,玩家们批评 RTX 40 中高阶型号性价比欠缺、吸引力很低。
GeForce RTX 4080型号真的是毫无性价比可言,RTX 4080芯片规模只有RTX 4090的59.38%,但售价仅便宜US$ 400,对比RTX 3080芯片规模是RTX 3090的82.96%,售价便宜US$ 800,难怪大家都说买RTX 4090就对啦!
拨乱反正的 RTX 40 SUPER

对于NVIDIA来说RTX 40 SUPER是一个大升级,但笔者认为用「拨乱反正」来形容会更贴切,NVIDIA将会推出三款全新RTX 40 SUPER型号,包括GeForce RTX 4070 SUPER、GeForce RTX 4070 TISUPER及GeForce RTX 4080 SUPER,其中RTX 4070 TiSUPER与RTX 4080 SUPER 会取代旧型号,RTX 4070 Ti 及 RTX 4080 将完全停产,RTX 4080 SUPER 的 MSRP 定价会降至 US$ 999。

作为NVIDIA RTX 40 SUPER三部曲的最终章,GeForce RTX 4080 SUPER规格是提升幅度最少的一张,CUDA Core只增加了5.27%、仍然只有AD102Full Chip规格的55.56%,内存接口和容量不变,内存颗粒时脉提升约2.68%,因此不要期待RTX 4080SUPER性能会比RTX 4080快多少, 实际意义在于将RTX 40售价差距作出修正,向下调US$ 200后MSPR定于US$ 999水平,令整个NVIDIA RTX 40产品线布局变得较为合理。
NVIDIA AD103-400 绘图核心
与 RTX 4070 Ti SUPER / RTX 4080 一样,GeForce RTX 4080 SUPER 同样采用 AD103 绘图核心,基于 NVIDIA Ada Lovelace GPU 微架构,性能提升主要来自 FP32 运算单元数目及时脉倍增,更大的 L2 Cache 容量及全新着色器执行排序技术,升级第 3 代 RT Cores、升级第 4 代 Tensor Cores, 与上代比较 Ampere GPU 微架构比较,传统光栅图形运算提高了 2 倍,同时在光线追踪性能上提升近 4 倍。

GeForce RTX 4080 SUPER 采用完整的 AD103-400 绘图核心,采用 TSMC 4N NVIDIA Custom 制程,拥有 459 亿个晶体管、 Die Size 379 mm²,内置7个GPC单元、40个TPC纹理处理群集及80个SM串流多处理器,具备10,240个CUDA Cores、80个RT Cores及320个Tensor Cores, 规模相较RTX 4080提升约5%。
核心时脉为面,GeForce RTX 4080 SUPER FE默认时脉为2,295MHz Base Clock、2,550MHz BoostClock,时脉设置相较RTX 4080略微提升,最高TDP则与RTX 4080一样维持在320W水平。

内存方面,NVIDIA GeForce RTX 4080 SUPER同样保持256-bit内存接口、16GBGDDR6X内存容量,不过内存速度由22.4Gbps提升至23Gbps,因此内存带宽由716.8GB/s轻微提升至736GB/s。

GeForce RTX 4080 SUPER Founder Edition
收到由 NVIDIA 送测的 GeForce RTX 4080 SUPER Founder Edition 显示卡,由于 NVIDIA 把 RTX 40 SUPER 定义为半代更新,因此外观设计上与 RTX 40 有明显差异,和早前坊间流出、已胎死腹中 RTX 3090 Ti 原型一样,整张卡都被「黑化」了,采用阳极化雾黑色金属框架,X 框架亦变成电镀亮黑面, 在光源下会呈现亮面反射效果,坦白说质感更上一层楼。



卡的正面都是雾黑色的散热鳍片,设计RTX 4080完全一样沿用轴向式散热设计,背面RTX 4080字样只有坑纹没有填色、SUPER则是Highlight效果立体凸出,正反两面各有一个12cm轴向式散热风扇,能够将部份废热排向CPU区域及直接排出机壳,令机壳内部温度变得更平均。


GeForce RTX 4080 SUPER Founder Edition 尺寸为 304 x 137 x 61 mm,基本上小机壳都可以直接略过,用上 Triple Slot 散热器、双 12 cm 轴向式散热风扇,顶端 GeForce RTX 字样在运作时会透出白色 LED 灯效,太炫炮了。

考虑到大部份人安装显卡后,从机壳外看进去只会看到卡背,NVIDIA将设计反转了把背板变成正面,朝上显示「RTX 4080 SUPER」字样,整张卡所有螺丝孔都用磁吸隐藏了,NVIDIA 真的是从使用者的角度、在细节中作出了考量,难怪那么多玩家想买 Founder Edition。
NVIDIA PG139 SKU 355
拆开散热器后,可以看到 GeForce RTX 4080 SUPER Founder Edition 拆开散热器,可以看到它采用 PG139 SKU 355 公板设计,与 RTX 4080 FE 几乎相同 ,NVIDIA 刻意将电路板尽量缩小,让卡身可以镂空让轴向式风扇将带气流带到 CPU 区域,12 Layers PCB 设计并经过低阻抗提供讯号及电力传输最佳化, 同时保留了不俗的超频性能。
供电设计方面,升级至13相Dual FET供电模块设计,其中10相负责GPU供电、3相负责GDDR6X供电,采用Monolithic Power Systems MP2891VRM控制芯片配搭Monolithic Power Systems MP86957 70A DrMOS 芯片。


NVIDIA AD103-400 绘图核心
NVIDIA GeForce RTX 4080 SUPER 采用了完整的 AD103-400 绘图核心,采用 TSMC 4N 制程、拥有 459 亿个电晶体、Die Size 约为 379 mm²,部份单元作出了屏蔽,拥有7个GPC单元、40个TPC纹理处理群集及80个SM串流处理器,具备10,240个CUDA Cores、80个RT Cores及320个Tensor Cores、320 个 Texture Unit 及 112 个 ROP。

时脉方面,NVIDIA GeForce RTX 4080 SUPER Founder Edition 预设时脉为2,295MHz Base、2,550MHz Boost,支持GPU Boost 4.0技术可因应负载自动超频至更高时脉,Power Limit预设为320W与RTX 4080相同。
升级 23Gbps GDDR6X 内存速度
内存方面,NVIDIA GeForce RTX 4080 SUPER保持16GBGDDR6X存储器容量及256-bit内存接口,不过内存速度由22.4Gbps提升至23Gbps,因此内存带宽由716.8GB/s,轻微提升至736.3GB/s。

NVIDIA GeForce RTX 4080 SUPER Founder Edition 采用了 8 颗 Micron D8BZF GDDR6X 颗粒编号,为 MT61K512M32KPA-24,其最高速度为 24Gbps,因此拥有一定内存超频空间 ,每颗单颗容量为 16Gbit (2GB),总容量为 16GB 绘图内存容量。
3 Slot轴向式散热器设计
NVIDIA GeForce RTX 4080 SUPER Founder Edition 沿用轴向式散热设计,设计与RTX 4080 FE 完全一样,Triple Slot 双 12 cm 风扇,GPU / VRM 及 GDDR6X 内存位置被巨型 Vapor Chamber 均热板覆盖,再通过 6 支导热管传导致另一组散热鳍片,搭配两颗 12 cm 风扇, 其中一颗反叶设计让冷空间穿过卡身未端排向CPU区域。



采用 12VHPWR / 12V2x6 供电
其实早在RTX 4770 Founder Edition开始,NVIDIA就已经使用了经过改进的12VHPWR /12V-2×6接头,相较旧有12VHPWR感应引脚仅向入偏移量0.45 mm,GeForce RTX 4080 SUPER Founders Edition使用具有向入偏移1.7 mm的感应引脚,更短的感应引脚可以检测连接器是否完全插入。 如果没有完全插入这样,GPU就会被限制最大功率负载,理论上讲应该可解决过去发生的接头烧毁问题,然而效果仍有待观察,产品随附一条PCIe 8-Pin x 3 to 12VHPWR /12V2x6转接线(450W)。

2 个 8K@60Hz HDR 显示输出
提供了3组Display Port 1.4a +DSC及2组HDMI 2.1影像输出埠口,两种输出接口皆可提供最高4K@240Hz或8K@60Hz 12bit HDR分辨率输出,支持VESA DSC 1.2无损压缩显示功能,单卡能提供最高2个8K@60Hz HDR显示输出,或是组合2组DisplayPort端口口提供单一8K@120Hz HDR输出。

性能测试
本次收到由NVIDIA送测GeForce RTX 4080 SUPER FE显示卡样本,同时亦找来RTX 4080/RTX 4090作对比测试,以了解NVIDIA GeForce RTX 4080 SUPER的效能水平。
时脉方面,NVIDIA GeForce RTX 4080 SUPER FE预设核心时脉为2,295MHz Base Clock、2,550MHz Boost Clock,支持GPU Boost 4.0技术最高可达2,870MHz,最高Power Limit默认为320W,可在-55%至+11%作出调整,最高可调至355W。


散热方面,NVIDIA GeForce RTX 4070 SUPER FE在约21°C的室温环境下闲置约30分钟,GPU温度维持在36°C。 接着采用Furmark进行3D负载测试,将GPU完全负载30分钟后,温度会提升至62°C,GPU时脉保持在2,325MHz,TGP为320W。

测试平台
- Intel Core i9-12900K CPU
- ASUS ROG Z790 Maximus APEX
- ANACOMDA DDR5-6400 CL36-38-38-68 32GB x 2 @1.35V
- Windows 11 Professional 23H2
- NVIDIA GeForce Driver 551.22 WHQL
Fire Strike / Time Spy





GPU | FireStrike | FireStrike Extreme | FireStrike Ultra | Time Spy | Time Spy Extreme |
GeForce RTX 3090 Ti | 52761 | 27160 | 14264 | 21627 | 11295 |
GeForce RTX 4070 Ti SUPER | 58860 | 29262 | 14280 | 24410 | 11827 |
GeForce RTX 4080 | 68414 | 34594 | 17490 | 28669 | 14199 |
GeForce RTX 4080 SUPER | 68670 | 34756 | 17740 | 28897 | 14344 |
Radeon RX 7900 XT | 68214 | 34843 | 17589 | 27888 | 13295 |
Radeon RX 7900 XTX | 73609 | 39522 | 20142 | 29463 | 14592 |
GeForce RTX 4090 | 82162 | 46953 | 25294 | 37263 | 19630 |
3DMark Ray-Tracing


GPU | Port Royal | Speed Way |
GeForce RTX 3090 Ti | 14533 | 5981 |
GeForce RTX 4070 Ti SUPER | 15582 | 6304 |
GeForce RTX 4080 | 18056 | 7379 |
GeForce RTX 4080 SUPER | 18440 | 7479 |
Radeon RX 7900 XT | 14499 | 5436 |
Radeon RX 7900 XTX | 15951 | 6010 |
GeForce RTX 4090 | 25955 | 9998 |
3DMark DLSS 测试

GPU | DLSS Off | DLSS2 | DLSS3 |
GeForce RTX 3090 Ti | 32.88 | 81.16 | |
GeForce RTX 4070 Ti SUPER | 33.21 | 88.38 | 144.11 |
GeForce RTX 4080 | 39.71 | 104.09 | 166.12 |
GeForce RTX 4080 SUPER | 40.32 | 104.58 | 167.86 |
GeForce RTX 4090 | 56.35 | 138.32 | 201.22 |
3DMark DirectX Raytracing feature test 测试

GPU | RT |
GeForce RTX 3090 Ti | 61.69 |
GeForce RTX 4070 Ti SUPER | 72.01 |
GeForce RTX 4080 | 84.78 |
GeForce RTX 4080 SUPER | 87.2 |
GeForce RTX 4090 | 139.98 |
UL Procyon AI 测试
在 UL Procyon AI Inference Benchmark (Windows) AI 推理基准测试中,使用常见的计算机视觉的神经网络模型,通过 CPU 或 GPU 运行相同操作进行比较,以测量 AI 加速器的性能,并设有浮点数或整数的测试方式。
测试采用 14900K、RTX 4080 / RTX 4080 SUPER 配置、float32 精度。 在 Microsoft Windows ML 版本及 NVIDIA Tensor RT 版本中,RTX 4070 Ti SUPER 分别获得 1,204 和 1,694 分数,而 RTX 4080 分别获得 1,199 和 1,682 分数。 AI 运算性能跑分方面,RTX 4080与RTX 4080 SUPER非常接近。


GPU | Windows ML | TensorRT |
GeForce RTX 4070 Ti | 1049 | 1512 |
GeForce RTX 4070 Ti SUPER | 1129 | 1593 |
GeForce RTX 4080 | 1199 | 1682 |
GeForce RTX 4080 SUPER | 1204 | 1694 |
Stable Diffusion AI 生成应用测试
Stable Diffusion 是于 2022 年发布的深度学习 text-to-image 模型工具,只需要输入文字内容,配合含有大量素材的训练模型,便可实时绘画 (AI 生成) 图像。 通过不同的文字内容和特定主题的训练模型,Stable Diffusion 主要用于生成真实人像、二次元人像、不同艺术风格等图像类型,带来千变万化、创意无限的图片内容,更是2023年热门使用的AI创作工具。
Stable Diffusion 支持 WebUI 界面,可在浏览器中显示图形化界面,能让一般电脑使用者也能轻松使用及调整不同的选项,亦兼容不同的系统平台及电脑硬件,加上不是太过复杂的安装过程,深受不同程度的电脑用户欢迎。 不过 Stable Diffusion 对于电脑硬件中的 GPU VRAM 容量有一定的需求,太低 VRAM 容量将会影响图片生成时的速度或是生成变化,普遍建议使用 8GB VRAM 容量或以上的显卡。
在不超过8GB VRAM容量下,RTX 4080 SUPER完成时间为8.9秒,而RTX 4080为9.1秒,两者相差0.2秒。 少许规格提升的RTX 4080 SUPER在低需求的AI图像生成只有非常轻微的差异。

GPU | Second(s) |
GeForce RTX 4080 | 9.1 |
GeForce RTX 4080 SUPER | 8.9 |
NVIDIA 于 2023 年 11 月推出全新 TensorRT Extension 工具,适用于 Stable Diffusion WebUI 安装及使用的扩充插件。 TensorRT Extension 可把一般的 Checkpoint 或 LoRA等模型,转换到 TensorRT 格式的配置文件,并可自定义配置文件的数值设置,目前支持 Text-2-image、Image-2-image、Stable Diffusion 1.5 / 2.1 / XL、LoRA 等。 NVIVIDA表示运行TensorRT Extension时,将会使用NVIDIA GPU的TensorCore计算,Stable Diffusion的效能可提升1倍以上。
测试使用 Stable Diffusuion 模块的 SDXL Turbo 1.0,并使用 TensorRT Extension 工具,转换合适的配置置。 以1024×1024分辨率、Step 20、Batch count 1、Batch size 1、简单的提示词等设置运行,并分别开启或关闭xformers指令、开启或关闭TensorRT功能。
在运行SDXL Turbo模式时,预载时已超过8GB VRAM容量,以1024×1024分辨率算图时,更会超出12GB或以上VRAM容量。 在 PyTorch、PyTorch + xformers、TensorRT 框架运算下,RTX 4080 SUPER 16GB 完成时间为 6.4 秒、5.1 秒、3.9 秒,而 RTX 4080 16GB 完成时间分别为 6.9 秒、5.5 秒、4.4 秒,两者时间相差 7% ~ 12%。 相比RTX 4080 16GB,当场景变得越复杂RTX 4080 SUPER 16GB才会有更明显的性能差异。
在使用 Stable Diffusion 高需求模块并以高分辨率运行时,所需的 VRAM 容量随即增加,在使用 xfomers 指令后,虽然完成时间减少了,但 VRAM 容量占用反而更多,失去了原来减少 VRAM 占用的优点。 在使用TensorRT框架后,相比纯PyTorch运算,VRAM容量占用明显降低,而且缩短了50%~60%完成时间,对于AI生成图片更有帮助。

游戏性能测试
以下的游戏测试除另外注明外,全部皆以3840 x 2160分辨率全屏幕执行,画质皆设置为最高质量,若游戏支持光线追踪技术则同时将光追质量全开。 而DLSS方面则统一使用Performance设置,当中GeForce RTX 40系列会启用DLSS 3中新增的Frame Generation技术。
A Plague Tale : Requiem 瘟疫传说:安魂曲 (RT + DLSS 3)
GPU | 4K DLSS Off | 4K DLSS On |
GeForce RTX 3090 Ti | 46 | 83 |
GeForce RTX 4070 Ti SUPER | 52 | 119 |
GeForce RTX 4080 | 60 | 142 |
GeForce RTX 4080 SUPER | 61 | 145 |
GeForce RTX 4090 | 81 | 183 |
Control (RT + DLSS2)
GPU | 4K DLSS Off | 4K DLSS On |
GeForce RTX 3090 Ti | 41 | 65 |
GeForce RTX 4070 Ti SUPER | 43 | 64 |
GeForce RTX 4080 | 55 | 81 |
GeForce RTX 4080 SUPER | 56 | 83 |
GeForce RTX 4090 | 72 | 116 |
CyberPunk 2077 RT Ultra (RT+ DLSS 3)
GPU | 4K DLSS Off | 4K DLSS on |
GeForce RTX 3090 Ti | 28 | 66 |
GeForce RTX 4070 Ti SUPER | 31 | 84 |
GeForce RTX 4080 | 42 | 114 |
GeForce RTX 4080 SUPER | 44 | 118 |
GeForce RTX 4090 | 53 | 149 |
F1 22 (RT + DLSS 3)
GPU | 4K DLSS off | 4K DLSS on |
GeForce RTX 3090 Ti | 61 | 132 |
GeForce RTX 4070 Ti SUPER | 63 | 136 |
GeForce RTX 4080 | 68 | 167 |
GeForce RTX 4080 SUPER | 69 | 169 |
GeForce RTX 4090 | 96 | 232 |
Forza Horizon 5 (DLSS 3)
GPU | 4K DLSS off | 4K DLSS on |
GeForce RTX 3090 Ti | 78 | 114 |
GeForce RTX 4070 Ti SUPER | 84 | 130 |
GeForce RTX 4080 | 96 | 147 |
GeForce RTX 4080 SUPER | 98 | 149 |
GeForce RTX 4090 | 119 | 189 |
Tom Clancy’s Rainbow Six Siege 虹彩六号:围攻行动
GPU | 10:02 | 2K | 4K |
GeForce RTX 3090 Ti | 598 | 513 | 321 |
GeForce RTX 4070 Ti SUPER | 592 | 14° | 361 |
GeForce RTX 4080 | 610 | 586 | 395 |
GeForce RTX 4080 SUPER | 611 | 591 | 401 |
GeForce RTX 4090 | 613 | 586 | 517 |
Microsoft Flight Simulator 微软模拟飞行 (DLSS 3)
GPU | 4K DLSS Off | 4K DLSS on |
GeForce RTX 3090 Ti | 55 | 81 |
GeForce RTX 4070 Ti SUPER | 54 | 118 |
GeForce RTX 4080 | 69 | 146 |
GeForce RTX 4080 SUPER | 71 | 149 |
GeForce RTX 4090 | 89 | 170 |
Watch Dogs Legion (RT + DLSS)
GPU | 4K DLSS Off | 4K DLSS On |
GeForce RTX 3090 Ti | 39 | 55 |
GeForce RTX 4070 Ti SUPER | 38 | 57 |
GeForce RTX 4080 | 52 | 69 |
GeForce RTX 4080 SUPER | 53 | 71 |
GeForce RTX 4090 | 71 | 94 |
总结
虽然GeForce RTX 4080 SUPER在芯片规模增加了5.28%、内存带宽增加了2.68%,但在3D游戏运算下你并不可能每次都将运算单元100%填满,所以GeForce RTX 4080 SUPER实际的游戏性能提升只有1~3%不等,越高分辨率、越复杂的场景差异才会较为明显,所以RTX 4080 SUPER 的重点并不在于规格及性能上的提升,而是MSPR定价由US$ 1,199降至US$ 999。
其实大家也不必将RTX 4080 SUPER与RTX 4080作过多的比较,就当作是一样的东西好了,反正NVIDIA已经将RTX 4080停产,其地位由RTX 4080 SUPER取而代之。