NVIDIA Blackwell 在 MLPerf Training v6.0 基准测试中表现出色
NVIDIA 再次ai提升了 AI 性能的标准,在最新的 MLPerf Training v6.0 基准测试中实现了全面胜利,这是 AI 模型训练的行业标准测试。公司报告显示其在所有基准测试中实现了最快的训练时间,展示了其 Blackwell GPU 和 Grace CPU 在应对超大规模工作负载方面的能力。
其中一个亮点是 DeepSeek-V3 的训练,这是一种拥有 6710 亿参数的专家混合模型 (MoE),使用 8,192 GPU 集群仅用时 2.02 分钟完成。这一成果证明了 NVIDIA 在高性能 AI 领域的主导地位,尤其是在需要巨大计算能力的大规模生成式 AI 模型方面。
关键结果与指标
MLPerf Training v6.0 引入了新的基准测试模型,例如 DeepSeek-V3 和 GPT-OSS-20B,反映了 AI 不断发展的趋势。NVIDIA 是唯一一个提交所有测试结果的平台,进一步巩固了其领导地位。基准测试的亮点包括:
- DeepSeek-V3 (671B): 使用 GB300 NVL72 平台,8,192 GPU 在 2.02 分钟内完成训练。
- GPT-OSS-20B: 在 512 GPU 集群上用时 7.43 分钟完成训练。
- Llama 3.1 (405B): 使用 8,192 GPU 在 7.07 分钟内完成训练。
这些结果展示了 NVIDIA 硬件和软件堆栈的可扩展性,包括 NVLink 和 Spectrum-X Ethernet 等先进的网络解决方案,确保了数千个处理器之间的高速通信。
通过全栈协同设计推动性能
NVIDIA 的成功不仅仅依赖于硬件。公司的软件堆栈在实现这些突破性成果方面起到了关键作用。创新包括:
- 针对无令牌丢失 MoEs 的全迭代 CUDA 图,消除了 CPU-GPU 同步延迟。
- 由 CuTe DSL 实现的内核融合,减少了内存瓶颈并提高了效率。
- 引入 MXFP8 注意力块,在维持模型质量的同时降低了精度成本。
这些优化不仅提高了速度,还提升了 GPU 资源的利用率,为企业降低了整体训练成本。
为什么 MLPerf 结果重要
MLPerf 基准测试由 MLCommons 联盟开发,已成为衡量 AI 训练性能的黄金标准。对企业而言,这些结果直接影响采购决策和基础设施策略。随着生成式 AI 模型的规模和复杂性不断增加,快速高效地训练它们已成为竞争优势。
NVIDIA 在 MLPerf Training v6.0 中的成就是在与其他 AI 芯片制造商和云服务提供商激烈竞争的背景下取得的。尽管 CoreWeave 声称在可用云配置的封闭赛区中取得了最快的结果,但 NVIDIA 的硬件和软件在每项测试中表现出无与伦比的一致性,使其成为超大规模服务商和 AI 初创公司首选的解决方案。
展望未来
NVIDIA 对全栈创新的关注确保了性能持续改进的轨迹。其 Megatron Core 和 Transformer Engine 库的最新进展表明,公司能够通过软件更新在现有硬件上实现显著提升。这使 NVIDIA 在企业扩大 AI 目标时处于有利地位。
对于开发者、超大规模服务商和企业而言,MLPerf Training v6.0 的结果再次确认了 NVIDIA 在 AI 训练领域的主导地位。凭借在多达 8,192 GPU 集群上的验证扩展性,该平台能够独特地应对下一代 AI 工作负载,将数月的训练压缩为短短几分钟。