首页>>科技 >>内容

英伟达的Eos超级计算机打破了自己的AI训练基准记录

发布时间:2023-11-09 09:37:58编辑:可爱的眼神来源:

根据您使用的硬件,训练任何规模的大型语言模型可能需要数周、数月甚至数年才能完成。这不是做生意的方式——没有人有足够的电力和时间来等待那么久。周三,NVIDIA推出了最新版本的 Eos 超级计算机,该计算机由超过 10,000 个 H100 Tensor Core GPU 提供支持,能够在四分钟内用 10 亿个代币训练 1750 亿个参数的 GPT-3 模型。这比NVIDIA 六个月前制定的MLPerf AI 行业标准基准快了三倍。

英伟达的Eos超级计算机打破了自己的AI训练基准记录

Eos 代表着巨大的计算量。它利用NVIDIA 的 Infiniband 网络(每秒传输 1 PB 数据)和 860 TB 高带宽内存(36PB/秒聚合带宽和 1.1PB 秒互连)串在一起的 10,752 个 GPU,提供40 exaflops的 AI 处理能力。整个云架构由 1344 个节点组成,公司可以每月以大约 37,000 美元的价格租用单个服务器来扩展其人工智能功能,而无需构建自己的基础设施。

总之,NVIDIA 在 9 项基准测试中创造了 6 项记录:GPT-3 的 3.9 分钟分数、使用 1,024 个 Hopper GPU 训练稳定扩散模型的 2.5 分钟分数、甚至训练 DLRM 的一分钟、RetinaNet 的 55.2 秒、 46 3D U-Net 和 BERT-Large 模型的训练时间仅为 7.2 秒。

NVIDIA 很快指出,基准测试中使用的 GPT-3 的 1750 亿参数版本并不是模型的全尺寸迭代(稳定扩散模型也不是)。更大的 GPT-3 提供了大约 3.7 万亿个参数,但对于用作基准测试来说太大且笨重。例如,在具有 512 个 GPU 的旧 A100 系统上训练它需要 18 个月,而 Eos 只需要 8 天。

因此,NVIDIA 和管理 MLPerf 标准的 MLCommons 使用了一个更紧凑的版本,该版本使用 10 亿个代币(生成 AI 系统理解的最小数据分母单位)。该测试使用 GPT-3 版本,具有相同数量的潜在开关来翻转(全尺寸(即 1750 亿个参数),只是在其中使用更易于管理的数据集(10 亿个代币 vs 3.7 万亿个)。

当然,令人印象深刻的性能改进来自于这样一个事实:最近一轮测试使用了 10,752 个 H100 GPU,而该公司在 6 月份的基准测试中使用了3,584 个 Hopper GPU 。然而 NVIDIA 解释说,尽管 GPU 数量增加了两倍,但通过大量使用软件优化,它仍设法保持 2.8 倍的性能扩展,即 93% 的效率。

“扩展是一件美妙的事情,”萨尔瓦托说,“但扩展意味着更多的基础设施,这也意味着更多的成本。有效扩展意味着用户“充分利用你的基础设施这样您基本上就可以[尽可能]快地完成工作,并从您的组织所做的投资中获得最大价值。”

这家芯片制造商并不是唯一一家进行开发工作的公司。微软的Azure团队为本轮基准测试提交了类似的10,752个H100 GPU系统,取得的成绩与NVIDIA的相差不到百分之二。

NVIDIA 加速计算产品总监 Dave Salvator 在周二的简报中告诉记者:“[Azure 团队]已经能够实现与 Eos 超级计算机相当的性能。” 更重要的是,“他们正在使用 Infiniband,但这是一个商业实例。这不是一些原始的实验室系统,永远不会让实际客户看到它的好处。这是 Azure 向其客户提供的实际实例。”

NVIDIA 计划将这些扩展的计算能力应用于各种任务,包括该公司在基础模型开发、人工智能辅助 GPU 设计、神经渲染、多模态生成人工智能和自动驾驶系统方面正在进行的工作。

Salvator 表示:“任何想要保持市场相关性的良好基准都必须不断更新它将向硬件施加的工作负载,以最好地反映其希望服务的市场。”他指出 MLCommons 最近添加了一个用于测试模型性能的额外基准稳定扩散任务。“这是生成人工智能的另一个令人兴奋的领域,我们看到各种各样的东西被创造出来”——从编程代码到发现蛋白质链。

这些基准很重要,因为正如萨尔瓦托指出的那样,生成式人工智能营销的现状有点像“狂野的西部”。缺乏严格的监督和监管意味着,“我们有时会看到某些人工智能性能声明,但你不太确定生成这些特定声明的所有参数。” Salvator 表示,MLPerf 提供了专业保证,即公司使用其测试生成的基准数据“经过了审查、审查,在某些情况下甚至受到联盟其他成员的质疑或质疑”。“正是这种同行评审过程真正为这些结果带来了可信度。”

近几个月来,NVIDIA 一直在稳步关注其 AI 能力和应用。“我们正处于人工智能的 iPhone 时刻,”首席执行官黄仁勋在 3 月份的 GTC 主题演讲中说道。当时该公司宣布推出 DGX 云系统,该系统分配了超级计算机的部分处理能力,特别是通过运行 60GB VRAM(总共 640 个内存)的 8 个 H100 或 A100 芯片。该公司于 5 月份在 Computex 上发布了 DGX GH200,扩大了其超级计算产品组合。