NVIDIA Blackwell 在 MLPerf Training v6.0 基准测试中表现出色

NVIDIA 再次ai提升了 AI 性能的标准，在最新的 MLPerf Training v6.0 基准测试中实现了全面胜利，这是 AI 模型训练的行业标准测试。公司报告显示其在所有基准测试中实现了最快的训练时间，展示了其 Blackwell GPU 和 Grace CPU 在应对超大规模工作负载方面的能力。

其中一个亮点是 DeepSeek-V3 的训练，这是一种拥有 6710 亿参数的专家混合模型 (MoE)，使用 8,192 GPU 集群仅用时 2.02 分钟完成。这一成果证明了 NVIDIA 在高性能 AI 领域的主导地位，尤其是在需要巨大计算能力的大规模生成式 AI 模型方面。

关键结果与指标

MLPerf Training v6.0 引入了新的基准测试模型，例如 DeepSeek-V3 和 GPT-OSS-20B，反映了 AI 不断发展的趋势。NVIDIA 是唯一一个提交所有测试结果的平台，进一步巩固了其领导地位。基准测试的亮点包括：

DeepSeek-V3 (671B)： 使用 GB300 NVL72 平台，8,192 GPU 在 2.02 分钟内完成训练。
GPT-OSS-20B： 在 512 GPU 集群上用时 7.43 分钟完成训练。
Llama 3.1 (405B)： 使用 8,192 GPU 在 7.07 分钟内完成训练。

这些结果展示了 NVIDIA 硬件和软件堆栈的可扩展性，包括 NVLink 和 Spectrum-X Ethernet 等先进的网络解决方案，确保了数千个处理器之间的高速通信。

通过全栈协同设计推动性能

NVIDIA 的成功不仅仅依赖于硬件。公司的软件堆栈在实现这些突破性成果方面起到了关键作用。创新包括：

针对无令牌丢失 MoEs 的全迭代 CUDA 图，消除了 CPU-GPU 同步延迟。
由 CuTe DSL 实现的内核融合，减少了内存瓶颈并提高了效率。
引入 MXFP8 注意力块，在维持模型质量的同时降低了精度成本。

这些优化不仅提高了速度，还提升了 GPU 资源的利用率，为企业降低了整体训练成本。

为什么 MLPerf 结果重要

MLPerf 基准测试由 MLCommons 联盟开发，已成为衡量 AI 训练性能的黄金标准。对企业而言，这些结果直接影响采购决策和基础设施策略。随着生成式 AI 模型的规模和复杂性不断增加，快速高效地训练它们已成为竞争优势。

NVIDIA 在 MLPerf Training v6.0 中的成就是在与其他 AI 芯片制造商和云服务提供商激烈竞争的背景下取得的。尽管 CoreWeave 声称在可用云配置的封闭赛区中取得了最快的结果，但 NVIDIA 的硬件和软件在每项测试中表现出无与伦比的一致性，使其成为超大规模服务商和 AI 初创公司首选的解决方案。

展望未来

NVIDIA 对全栈创新的关注确保了性能持续改进的轨迹。其 Megatron Core 和 Transformer Engine 库的最新进展表明，公司能够通过软件更新在现有硬件上实现显著提升。这使 NVIDIA 在企业扩大 AI 目标时处于有利地位。

对于开发者、超大规模服务商和企业而言，MLPerf Training v6.0 的结果再次确认了 NVIDIA 在 AI 训练领域的主导地位。凭借在多达 8,192 GPU 集群上的验证扩展性，该平台能够独特地应对下一代 AI 工作负载，将数月的训练压缩为短短几分钟。

NVIDIA Blackwell 在 MLPerf Training v6.0 基准测试中表现出色

关键结果与指标

通过全栈协同设计推动性能

为什么 MLPerf 结果重要

展望未来

Read More