
传说中的NVIDIAGH200 在MLPerf 3.1中惊艳亮相,性能直接碾压H100,领先了17%。 继4月份加入LLM训练测试后,MLPerf再次迎来重磅更新,MLCommons发布了MLPerf v3.1版本更新,并加入了两个全新基准:LLM推理测试MLPerfInference v3.1,以及储存性能测试MLPerf Storage v0.5。
这也是 NVIDIA GH200 测试成绩的首次亮相!
相比于单张H100配合Intel CPU,GH200的Grace CPU+H100 GPU的组合,在各个项目上都有15%左右的提升。


性能大幅增长
具体来说,它将一个 H100 GPU 和 Grace CPU 内置在一起,通过 900GB/s 的 NVLink-C2C 连接。
而CPU和GPU分别配备了480GB的LPDDR5X内存和96GB的HBM3或者144GB的HBM3e的内存,内置了高达576GB以上的高速存储器。

NVIDIAGH200 Grace Hopper 超级芯片专为计算密集型工作负载而设计,能够满足各种严苛的要求和各项功能。
比如训练和运行数万亿参数的大型 Transformer 模型,或者是运行具有数 TB 大小的嵌入表的推荐系统和向量数据库。
GH200 Grace Hopper 超级芯片还在 MLPerf Inference 测试中有着非常优异的表现,刷新了 NVIDIA 单个 H100 SXM 在每个项目中创下的最佳成绩。

NVIDIA Grace Hopper MLPerf Inference 数据中心性能与 DGX H100 SXM 的对比结果,每个数值都是 GH200 的性能领先幅度
GH200 Grace Hopper 超级芯片内置了 96 GB 的 HBM3,并提供高达 4 TB/s 的 HBM3 内存带宽,而 H100 SXM 分别为 80 GB 和 3.35 TB/s。
与H100 SXM相比,更大的内存容量和更大的内存带宽使得在NVIDIA GH200 Grace Hopper超级芯片上使用更大的批次处理大小来处理工作负载。
例如,在服务器场景中,RetinaNet和 DLRMv2 的批次处理大小都增加了一倍,在离线场景中,大小增加了 50%。
GH200 Grace Hopper 超级芯片在 Hopper GPU 和 Grace CPU 之间的高带宽 NVLink-C2C 连接可以实现 CPU 和 GPU 之间的快速通讯,从而有助于提高性能。
例如,在MLPerf DLRMv2中,在H100 SXM上通过PCIe传输一批张量(Tensor)大约需要22%的批次处理推理时间。
使用了 NVLink-C2C 的 GH200 Grace Hopper 超级芯片仅使用 3% 的推理时间就完成了相同的传输。
由于具有更高的内存带宽和更大的内存容量,与MLPerf Inference v3.1的H100 GPU相比,Grace Hopper超级芯片的单芯片性能优势高达17%。
推理和训练全面领先
在 MLPerf 的首秀中,GH200 Grace Hopper Superchip 在封闭类别(Closed Division)的所有工作负载和场景上都表现出卓越的性能。
而在主流的服务器应用中,L4 GPU能够提供一个低功耗,紧凑型的算力解决方案,与CPU解决方案相比的性能也有了大幅的提升。
与测试中最好的x86 CPU相比,L4的性能也非常强劲,提高了6倍。

对于其他的 AI 应用和机器人应用,Jetson AGX Orin 和 Jetson Orin NX 模块实现了出色的性能。
未来的软件优化有助于进一步释放强大的英伟达Orin SoC 在这些模块中的潜力。
在目前非常流行的目标检测 AI 网络 — RetinaNet 上,NVIDIA 的产品的性能提高了高达84%。
NVIDIA 开放部分(Open Division)的结果,展示了通过模型优化可以在保持极高精度的同时大幅提高推理性能的潜力。
全新MLPerf 3.1基准测试
当然,这并不是MLCommons第一次尝试对大型语言模型的性能进行基准测试。
早在今年6月,MLPerf v3.0就首次加入了LLM训练的基准测试。 不过,LLM的训练和推理任务,区别很大。
推理工作负载对计算要求高,而且种类繁多,这就要求平台能够快速处理各种类型的数据预测,并能在各种 AI 模型上进行推理。
对于希望部署 AI 系统的企业来说,需要一种方法来客观评估基础设施在各种工作负载、环境和部署场景中的性能。
所以对于训练和推理的基准测试都是很重要的。
MLPerf Inference v3.1 包括了两项重要更新,来更好地反映现在 AI 实际的使用情况:
首先,增加了基于GPT-J的大型语言模型(LLM)推理的测试。 GPT-J 是一个开放源代码的 6B 参数 LLM,对 CNN/每日邮报数据集进行文字总结。
除了GPT-J之外,这次还更新了 DLRM 测试。
针对MLPerf Training v3.0中引入的DLRM,采用了新的模型架构和更大的数据集,更好地反映了推荐系统的规模和复杂性。
MLCommons 创始人兼执行董事 David Kanter 表示:训练基准侧重于更大规模的基础模型,而推理基准执行的实际任务,则代表了更广泛的用例,大部分组织都可以进行部署。
在这方面,为了能够对各种推理平台和用例进行有代表性的测试,MLPerf 定义了四种不同的场景。

每个基准都由数据集和质量目标定义。

每个基准都需要以下场景:

在 MLPerf v3.1 基準測試中,有超過 13,500 個結果,其中不少提交者的性能比 3.0 基準提高了 20%,甚至更多。
其他提交者包括華碩,Azure,cTuning,Connect Tech,Dell,富士通,Giga Computing,Google,H3C,HPE,IEI,Intel,Intel Habana Labs,Krai,聯想,墨芯,Neural Magic,Nutanix,甲骨文,高通,Quanta Cloud Technology,SiMA,Supermicro,TTA 和 xFusion 等。
