NVIDIA利用NVFP4推动低精度Transformer训练

NVIDIA提出了利用低精度训练优化Transformer型AI模型的方法，借助其NVFP4格式降低成本并提升在Hopper和Blackwell系列GPU上的速度。随着Transformer模型变得日益复杂，这些进步旨在缩短训练时间，同时保持模型的准确性，这是AI竞争中的关键因素。

低精度训练，包括FP8和NVFP4格式，加速了主导Transformer工作负载的矩阵乘法（GEMMs）。例如，训练一个具有50亿参数的模型如CodonFM，需要对GEMMs进行大量计算。NVIDIA的新工具，如Transformer Engine，使AI研究人员能够对这些操作进行基准测试，并在投入昂贵的训练之前评估精度权衡。

关键基准测试和结果

在NVIDIA的B300 GPU上的基准测试显示，NVFP4在计算密集型操作中相较标准FP8格式提供了显著的加速。例如，在一次测试中，NVFP4在CodonFM架构的“MLP Down”GEMM组件中比FP8实现了1.66倍的加速。预量化基准测试进一步揭示了更大的潜力，NVFP4在原始内核吞吐量上比BF16快了3.48倍。

然而，结果也突出了局限性。较小的矩阵规模（如注意力输出层）由于动态量化的开销超过了低精度操作的收益，因此加速效果有限。此外，某些精度格式，例如FP8 DelayedScaling，表现出具有竞争力的性能，这表明为每个模型组件选择合适的格式至关重要。

重要性解析

随着Transformer模型参数规模达到数千亿甚至万亿，低精度训练变得越来越重要。这些模型推动了生成式AI的进步，从语言模型如GPTs到专门研究RNA的系统如CodonFM。

最近的趋势显示出对精度优化技术的日益采用。例如，Google的DeepMind在4位格式的量化感知训练（QAT）中实现了72%的VRAM使用量减少。同样，硬件-软件协同设计方法如TurboQuant在KV缓存存储中实现了高达6倍的压缩。NVIDIA的NVFP4融入了这一更广泛的趋势，为降低成本而不牺牲准确性提供了一种途径。

AI开发的实际意义

希望采用低精度训练的AI团队应遵循NVIDIA的建议，对其特定的Transformer配置进行基准测试。像Transformer Engine这样的工具允许用户模拟GEMM工作负载、分析精度格式，并估算端到端的训练收益。这不仅可以避免昂贵的错误，还能帮助识别瓶颈，例如量化开销或非最优内核选择。

对于生产就绪的部署，FP8仍然是主流格式，由NVIDIA的H100和B100 GPU支持。然而，NVFP4和类似的4位格式正成为大规模预训练和微调任务的可行选择，在性能与计算效率之间提供了平衡。AI从业者还应关注以稳定性为重点的研究，例如ICLR 2026关于低精度FlashAttention中舍入误差的见解，以确保稳健的训练结果。

下一步

随着低精度训练的发展，NVIDIA的基准测试表明行业的方向：硬件和软件之间的更紧密集成。开发者可以期待更多优化低精度格式的工具和框架，使模型更大、更快且更具成本效益。

对于渴望测试这些创新的团队，NVIDIA的基准测试脚本是一个合乎逻辑的起点。通过理解BF16、FP8和NVFP4等精度级别之间的权衡，AI从业者可以做出数据驱动的决策，从而最大化其基础设施和研究投资的价值。

NVIDIA利用NVFP4推动低精度Transformer训练

关键基准测试和结果

重要性解析

AI开发的实际意义

下一步

Read More