Nvidia的新MoE内核承诺AI训练速度提升93%
Nvidia推出了针对专家混合模型(Mixture-of-Experts, MoE)的尖端融合内核,为训练吞吐量带来了显著改进。通过cuDNN Frontend、Transformer Engine和Megatron Core提供的新内核,在内核层面实现了1.3倍到2.1倍的速度提升。更令人印象深刻的是,根据Nvidia的内部测试,这些内核在GPT模型训练中整体速度提升高达93%,这一消息于2026年6月15日公布。
MoE架构在扩展AI模型中变得至关重要,它在保持计算成本可控的同时实现了大规模参数量。Nvidia的新内核旨在解决MoE训练中的关键瓶颈,包括内存开销、CPU与GPU之间的同步延迟,以及在激活和量化过程中存在的效率低下问题。通过利用CuTe DSL(CUDA Templates for Experts),Nvidia重新设计了其软件栈,以确保训练过程中Tensor Cores始终得以充分利用。
打破瓶颈
MoE训练效率长期以来受到以下三个主要挑战的阻碍:
- 激活瓶颈:标准激活函数由于过多的内存操作,往往未能充分利用Tensor Cores。
- CPU开销:动态令牌在专家之间的路由会引入显著的CPU与GPU同步延迟。
- 量化效率低下:将张量转换为低精度会增加不必要的内存绑定操作。
为了解决这些问题,Nvidia开发了定制的融合内核,将分组GEMM、激活函数(SwiGLU、GeGLU、sReLU)和量化等操作集成到单一的CUDA内核中。这种方式消除了中间张量的读取/写入操作,特别是在低精度格式(如MXFP8和NVFP4)下减少了内存开销。
实际影响:GPT和DeepSeek加速
这些创新带来的影响令人瞩目。Nvidia报告称,DeepSeek-V3预训练设置的整体速度提高了8%,而GPT-OSS预训练的提升幅度更是高达93%。随着AI竞赛的升级,组织越来越依赖MoE的能力来高效扩展模型,这些性能提升显得尤为重要。Nvidia的进展正值美国政府对顶级AI模型进行国家安全风险审查之际,这一情况在2026年6月2日的一项行政命令中被提及。
这些性能提升还具有战略意义,对Nvidia的合作伙伴关系起到了推动作用。例如,五角大楼最近与Nvidia、微软和AWS签署了合同,计划在机密网络中部署AI。更快的训练周期可能会加速这些高风险应用的模型准备进程。
如何获取这项技术
Nvidia的融合MoE内核已经集成到其软件生态系统中。开发者可以通过以下方式访问:
- cuDNN Frontend:在1.23.0+版本中可用,该库允许直接调用或通过包装API进行缓存、可重用的编译。
- Transformer Engine:2.15+版本支持这些内核,实现与PyTorch工作流程的无缝集成。
- Megatron Core:从26.04-alpha.rc2版本开始,用户可以通过调整运行时配置激活这些内核。
有兴趣尝试该技术的人可以在Nvidia的GitHub仓库中找到详细的基准测试和说明。
为什么这很重要
Nvidia的进展突显了在大规模优化AI的持续努力。自2023年以来,MoE模型主导了前沿研究,如何高效训练这些架构已成为商业实体和政府的首要任务。Nvidia对硬件感知型软件设计的关注确保了其GPU仍然是这场AI革命的核心支柱。
随着MoE在语言、视觉和多模态AI系统领域的应用增长,更快的训练不仅是技术上的里程碑,更是一个战略优势。Nvidia的创新可能会重新定义组织训练和部署大规模AI模型的方式,使其成为AI竞争中的关键工具。