NVIDIA 打破记录，在 4 分钟内训练 AI 模型

工具软件3年前 (2023)发布 gpts

329 0 0

NVIDIA 的 AI 平台再次展示了其能力，在最新的 MLPerf 行业基准中创造了新记录，这是 AI 训练和高性能计算的一项备受推崇的衡量标准。AI 超级计算机 NVIDIA Eos 由高达 10,752 个 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 网络提供支持，在创纪录的 3.3 分钟内完成了基于 GPT-9 模型的训练基准测试。与之前的记录相比，这一重大改进表明了更快的培训时间的潜力，这可以降低成本、节省能源并加快产品开发，使其成为行业的游戏规则改变者。

这些最新结果是通过使用 MLPerf 基准测试中有史以来使用的最高数量的加速器实现的。这一成就凸显了 NVIDIA 有能力为全球最大的数据中心应对生成式 AI 的独特挑战。Eos 和 Microsoft Azure 使用加速器、系统和软件方面的全栈创新平台来实现这些突破性成果，展示了协作和技术进步的力量。

训练 AI 模型

在这一轮融资中，英伟达创下了多项新纪录，进一步巩固了其在该领域的领导者地位。除了在生成式 AI 方面取得重大进展外，H100 GPU 的速度比上一轮的训练推荐模型快 1.6 倍。NVIDIA 是唯一一家运行所有 MLPerf 测试的公司，这进一步证明了其致力于突破 AI 技术界限的承诺。

本轮 11 家系统制造商使用了 NVIDIA AI 平台，其中包括华硕、戴尔科技、富士通、技嘉、联想、云达科技和美超微等行业重量级企业。NVIDIA 技术的广泛使用清楚地表明了其稳健性、可靠性和行业接受度，展示了其彻底改变 AI 技术的潜力。

NVIDIA AI 平台

在 MLPerf HPC 中，H100 GPU 的性能是 NVIDIA A100 Tensor Core GPU 的两倍。当 H100 GPU 在短短 3.7 分钟内训练 OpenFold（一种预测蛋白质 5D 结构的模型）时，这种性能提升尤为明显，展示了 NVIDIA 技术的强大功能和效率。

包括戴尔科技、克莱姆森大学、德克萨斯高级计算中心、劳伦斯伯克利国家实验室和惠普企业（HPE）在内的多家合作伙伴在本轮融资中提交了关于 NVIDIA AI 平台的提案。NVIDIA 与这些组织之间的合作展示了该平台在各个领域的多功能性和适用性，凸显了其改变行业的潜力。

MLPerf 基准测试

MLPerf 基准测试得到了工业界和学术界的广泛支持，亚马逊、Arm、百度、谷歌、哈佛大学、HPE、英特尔、联想、Meta、Microsoft、英伟达、斯坦福大学和多伦多大学等组织都支持它们。NVIDIA 使用的所有软件都可以从 MLPerf 存储库中获得，确保所有相关方的透明度和可访问性，进一步促进 AI 技术的民主化。

NVIDIA 的 AI 平台继续在 AI 训练和高性能计算领域树立新标准，其在 MLPerf 行业基准中的最新成就证明了这一点。该平台能够降低成本、节约能源和加快产品开发，并被系统制造商和合作伙伴广泛采用，凸显了其在推进人工智能技术方面的价值和潜力。这一持续的成功证明了 NVIDIA 致力于突破 AI 技术的界限及其彻底改变行业的潜力。