首页>>百科 >>内容

AWS和NVIDIA战略合作为生成式AI提供新的超级计算基础设施软件和服务

发布时间:2023-11-30 14:17:22编辑:可爱的眼神来源:

在AWS re:Invent 主题演讲中,AWS 和 NVIDIA 宣布了人工智能 (AI) 的重大进展。AWS 首席执行官 Adam Selipsky 邀请 NVIDIA 首席执行官黄仁勋上台,详细阐述了两家公司的战略合作成果。此次合作旨在提供最先进的基础设施、软件和服务,推动生成式人工智能创新。此次合作融合了 NVIDIA 的尖端技术和 AWS 强大的云基础设施,标志着人工智能开发的新时代。

AWS和NVIDIA战略合作为生成式AI提供新的超级计算基础设施软件和服务

利用 NVIDIA GH200 Grace Hopper 超级芯片彻底改变云 AI

此次合作的基石是 AWS 将 NVIDIA 的GH200 Grace Hopper Superchips引入云中,这在云提供商中尚属首次。这些超级芯片代表了基于云的人工智能计算的重大飞跃。GH200 NVL32 多节点平台使用 NVIDIA NVLink 和 NVSwitch 技术连接 32 个 Grace Hopper Superchip,将集成到 Amazon EC2 实例中。这些新的 Amazon EC2 实例可满足各种 AI、HPC 和图形工作负载的需求。

每个 GH200 Superchip 在同一模块上结合了基于 Arm 的 Grace CPU 和 NVIDIA Hopper 架构 GPU,使单个 EC2 实例能够提供高达 20TB 的共享内存,为 TB 级工作负载提供支持。这种设置允许联合客户扩展到数千个 GH200 超级芯片,为人工智能研究和应用提供前所未有的计算能力。

AWS 推出了三个新的 EC2 实例:由NVIDIA H200 Tensor Core GPU提供支持的 P5e 实例,专为大规模和尖端的生成式 AI 和 HPC 工作负载而设计。G6 和 G6e 实例分别由 NVIDIA L4 和 L40S GPU 提供支持,适用于 AI 微调、推理、图形和视频工作负载。G6e 实例特别适合使用 NVIDIA Omniverse(一个用于构建支持 AI 的生成式 3D 应用程序的平台)开发 3D 工作流程、数字孪生和应用程序。

由 NVIDIA GH200 驱动的 EC2 实例将配备 4.5TB 的 HBM3e 内存。与当前 H100 支持的 EC2 P5d 实例相比,增加了 7.2 倍。CPU 到 GPU 内存互连将提供比 PCIe 高出 7 倍的带宽,从而实现芯片间通信,从而扩展应用程序可用的总内存。

配备 GH200 NVL32 的 AWS 实例将成为 AWS 上第一个具有液体冷却功能的 AI 基础设施。这将有助于确保密集的服务器机架以最高性能高效运行。采用 GH200 NVL32 的 EC2 实例还将受益于 AWS Nitro 系统,它是下一代 EC2 实例的底层平台。Nitro 将功能的 I/O 从主机 CPU/GPU 卸载到专用硬件,提供更一致的性能和增强的安全性,以在处理过程中保护客户代码和数据。

在另一项改变游戏规则的公告中,在 AWS 上运行的 NVIDIA 软件将促进生成式 AI 开发。NVIDIA NeMo Retriever微服务将提供使用加速语义检索创建准确聊天机器人和摘要工具的工具。

制药公司可以利用 NVIDIA BioNeMo 加快药物发现速度,该产品可在 Amazon SageMaker 上使用并登陆 DGX Cloud。

AWS 将利用 NVIDIA NeMo 框架培训精选的下一代 Amazon Titan LLM。Amazon Robotics 正在使用 NVIDIA Omniverse Isaac 构建数字孪生,以便在部署到现实世界之前在虚拟环境中实现自动化、优化和规划自主仓库。