Nvidia的新MoE内核承诺AI训练速度提升93%

Nvidia推出了针对专家混合模型（Mixture-of-Experts, MoE）的尖端融合内核，为训练吞吐量带来了显著改进。通过cuDNN Frontend、Transformer Engine和Megatron Core提供的新内核，在内核层面实现了1.3倍到2.1倍的速度提升。更令人印象深刻的是，根据Nvidia的内部测试，这些内核在GPT模型训练中整体速度提升高达93%，这一消息于2026年6月15日公布。

MoE架构在扩展AI模型中变得至关重要，它在保持计算成本可控的同时实现了大规模参数量。Nvidia的新内核旨在解决MoE训练中的关键瓶颈，包括内存开销、CPU与GPU之间的同步延迟，以及在激活和量化过程中存在的效率低下问题。通过利用CuTe DSL（CUDA Templates for Experts），Nvidia重新设计了其软件栈，以确保训练过程中Tensor Cores始终得以充分利用。

打破瓶颈

MoE训练效率长期以来受到以下三个主要挑战的阻碍：

激活瓶颈：标准激活函数由于过多的内存操作，往往未能充分利用Tensor Cores。
CPU开销：动态令牌在专家之间的路由会引入显著的CPU与GPU同步延迟。
量化效率低下：将张量转换为低精度会增加不必要的内存绑定操作。

为了解决这些问题，Nvidia开发了定制的融合内核，将分组GEMM、激活函数（SwiGLU、GeGLU、sReLU）和量化等操作集成到单一的CUDA内核中。这种方式消除了中间张量的读取/写入操作，特别是在低精度格式（如MXFP8和NVFP4）下减少了内存开销。

实际影响：GPT和DeepSeek加速

这些创新带来的影响令人瞩目。Nvidia报告称，DeepSeek-V3预训练设置的整体速度提高了8%，而GPT-OSS预训练的提升幅度更是高达93%。随着AI竞赛的升级，组织越来越依赖MoE的能力来高效扩展模型，这些性能提升显得尤为重要。Nvidia的进展正值美国政府对顶级AI模型进行国家安全风险审查之际，这一情况在2026年6月2日的一项行政命令中被提及。

这些性能提升还具有战略意义，对Nvidia的合作伙伴关系起到了推动作用。例如，五角大楼最近与Nvidia、微软和AWS签署了合同，计划在机密网络中部署AI。更快的训练周期可能会加速这些高风险应用的模型准备进程。

如何获取这项技术

Nvidia的融合MoE内核已经集成到其软件生态系统中。开发者可以通过以下方式访问：

cuDNN Frontend：在1.23.0+版本中可用，该库允许直接调用或通过包装API进行缓存、可重用的编译。
Transformer Engine：2.15+版本支持这些内核，实现与PyTorch工作流程的无缝集成。
Megatron Core：从26.04-alpha.rc2版本开始，用户可以通过调整运行时配置激活这些内核。

有兴趣尝试该技术的人可以在Nvidia的GitHub仓库中找到详细的基准测试和说明。

为什么这很重要

Nvidia的进展突显了在大规模优化AI的持续努力。自2023年以来，MoE模型主导了前沿研究，如何高效训练这些架构已成为商业实体和政府的首要任务。Nvidia对硬件感知型软件设计的关注确保了其GPU仍然是这场AI革命的核心支柱。

随着MoE在语言、视觉和多模态AI系统领域的应用增长，更快的训练不仅是技术上的里程碑，更是一个战略优势。Nvidia的创新可能会重新定义组织训练和部署大规模AI模型的方式，使其成为AI竞争中的关键工具。

Nvidia的新MoE内核承诺AI训练速度提升93%

打破瓶颈

实际影响：GPT和DeepSeek加速

如何获取这项技术

为什么这很重要

Read More