Amazon Web Service/AWS于自家年度活动AWS re:Invent大会宣布携手NVIDIA导入多项NVIDIA的创新硬件、技术与服务,率先成为首家导入NVIDIA Grace Hopper Superchip与Ultra Cluster可扩展云端超级计算机的云服务商,为机器学习与当前火热的生成式AI提供自硬件、 软件到软件的全方位解决方案。
AWS宣布将是第一家提供NVIDIA Grace Hopper Superchip的云服务商,以达32个节点构成单一个NVIDIA GH200 NVL32执行个体,将高达32个Grace Hopper Superchip成为一个具备20TB共享内存的执行个体,同时也是AWS首个采用液态冷却的AI基础设施。 该平台将在与具备400 Gbps的Amazon第三代EFA连接的Amazon Elastic Compute Cloud(Amazon EC2)执行个体上提供,并由高级虚拟化(AWS Nitro System)和超大规模丛集(Amazon EC2UltraClusters)提供支持,使双方客户能够扩展上千的GH200超级芯片。

▲AWS将串接32个Grace Hopper Superchip构成GH200 NVL32,提供高达20TB的共享内存
同时NVIDIA与AWS将共同在AWS平台托管NVIDIA的人工智能训练即服务( AI Tranning as Service)NVIDIA DGX Cloud; 此平台将是全球第一个利用NVIDIA GH200 NVL32的DGX Cloud,为开发人员提供单一执行个体最大的共享内存,以强大的运算力与充裕的内存,藉此执行超过一兆个参数的大型语言模型训练。
双方同时启动Project Celiba,Project Celiba的目的是打造以GPU驱动的世界上最快的AI超级计算机,该计划采用GH200 NVL32与Amazon EFA互连的大规模系统,并由AWS为NVIDIA研发团队托管; 预计Project Celiba将配有高达16,384个NVIDIA GH200 Superchip,具备达65exaflops,NVIDIA预期将通过Project Celiba驱动下一波生成式AI,包括将使用此超级计算机进行研发,以推进大型语言模型、图形和模拟、数字生物学、机器人
、自动驾驶汽车和Earth-2气候预测等领域的人工智能。 Project Celiba将与AWS服务整合,例如Amazon Virtual PrivateCloud(VPC)加密网络和Amazon Elastic Block Store高效能区块储存,从而使NVIDIA能够访问AWS的全面功能。

▲P5e执行个体采用NVIDIA H200,为AWS针对大规模与高阶生成式AI、高效能运算工作负载的全新EC2执行个体
AWS也将推出另外三个全新Amazon EC2执行个体,包括针对大规模与高阶生成式AI、高效能运算工作负载、以NVIDIA H200 Tensor Core GPU驱动的P5e执行个体,以及适用于人工智能微调、推论、图形、视频与工作负载等由NVIDIA L4 GPU驱动的G6,与NVIDIA L40S GPU驱动的G6e执行个体, 其中G6e特别适合结合NVIDIA Omniverse开发3D工作流程、数字孪生与其他应用程序。
AWS也将扩展NVIDIA的生成式AI软件,NVIDIA宣布在AWS推出多项软件功能,包括作为加速语意检索构建高准度聊天机器人与摘要工具的NVIDIA NeMo Retriever微服务提供了新工具。 此外针对药物开发,。 NVIDIA BioNeMo现在已经于Amazon SageMaker上架; 同时AWS也着手活用NVIDIA NeMo框架训练下一代Amazon Titan大型语言模型; 另外Amazon Robotics的机器人计划也开始活用NVIDIA Omniverse Isaac建构数字孪生,通过在数字孪生环境先行进行自动化、优化与规划自主仓库,加速新一代自动化机器人于现实部署与提高运作的正确性。