亚马逊AWS率先导入NVIDIA Grace Hopper Superchip与Ultra Cluster可扩展云端超级计算机，为生成式AI提供强大的云计算基础架构、软件与服务

游侠网 • 2024年12月1日 15:15 • 达人投稿

Amazon Web Service/AWS于自家年度活动AWS re：Invent大会宣布携手NVIDIA导入多项NVIDIA的创新硬件、技术与服务，率先成为首家导入NVIDIA Grace Hopper Superchip与Ultra Cluster可扩展云端超级计算机的云服务商，为机器学习与当前火热的生成式AI提供自硬件、软件到软件的全方位解决方案。

AWS宣布将是第一家提供NVIDIA Grace Hopper Superchip的云服务商，以达32个节点构成单一个NVIDIA GH200 NVL32执行个体，将高达32个Grace Hopper Superchip成为一个具备20TB共享内存的执行个体，同时也是AWS首个采用液态冷却的AI基础设施。该平台将在与具备400 Gbps的Amazon第三代EFA连接的Amazon Elastic Compute Cloud（Amazon EC2）执行个体上提供，并由高级虚拟化（AWS Nitro System）和超大规模丛集（Amazon EC2UltraClusters）提供支持，使双方客户能够扩展上千的GH200超级芯片。

亚马逊AWS率先导入NVIDIA Grace Hopper Superchip与Ultra Cluster可扩展云端超级计算机，为生成式AI提供强大的云计算基础架构、软件与服务

▲AWS将串接32个Grace Hopper Superchip构成GH200 NVL32，提供高达20TB的共享内存

同时NVIDIA与AWS将共同在AWS平台托管NVIDIA的人工智能训练即服务（ AI Tranning as Service）NVIDIA DGX Cloud; 此平台将是全球第一个利用NVIDIA GH200 NVL32的DGX Cloud，为开发人员提供单一执行个体最大的共享内存，以强大的运算力与充裕的内存，藉此执行超过一兆个参数的大型语言模型训练。

双方同时启动Project Celiba，Project Celiba的目的是打造以GPU驱动的世界上最快的AI超级计算机，该计划采用GH200 NVL32与Amazon EFA互连的大规模系统，并由AWS为NVIDIA研发团队托管; 预计Project Celiba将配有高达16,384个NVIDIA GH200 Superchip，具备达65exaflops，NVIDIA预期将通过Project Celiba驱动下一波生成式AI，包括将使用此超级计算机进行研发，以推进大型语言模型、图形和模拟、数字生物学、机器人
、自动驾驶汽车和Earth-2气候预测等领域的人工智能。 Project Celiba将与AWS服务整合，例如Amazon Virtual PrivateCloud（VPC）加密网络和Amazon Elastic Block Store高效能区块储存，从而使NVIDIA能够访问AWS的全面功能。

▲P5e执行个体采用NVIDIA H200，为AWS针对大规模与高阶生成式AI、高效能运算工作负载的全新EC2执行个体

AWS也将推出另外三个全新Amazon EC2执行个体，包括针对大规模与高阶生成式AI、高效能运算工作负载、以NVIDIA H200 Tensor Core GPU驱动的P5e执行个体，以及适用于人工智能微调、推论、图形、视频与工作负载等由NVIDIA L4 GPU驱动的G6，与NVIDIA L40S GPU驱动的G6e执行个体，其中G6e特别适合结合NVIDIA Omniverse开发3D工作流程、数字孪生与其他应用程序。

AWS也将扩展NVIDIA的生成式AI软件，NVIDIA宣布在AWS推出多项软件功能，包括作为加速语意检索构建高准度聊天机器人与摘要工具的NVIDIA NeMo Retriever微服务提供了新工具。此外针对药物开发，。 NVIDIA BioNeMo现在已经于Amazon SageMaker上架; 同时AWS也着手活用NVIDIA NeMo框架训练下一代Amazon Titan大型语言模型; 另外Amazon Robotics的机器人计划也开始活用NVIDIA Omniverse Isaac建构数字孪生，通过在数字孪生环境先行进行自动化、优化与规划自主仓库，加速新一代自动化机器人于现实部署与提高运作的正确性。