NVIDIA利用NVFP4推动低精度Transformer训练
NVIDIA提出了利用低精度训练优化Transformer型AI模型的方法,借助其NVFP4格式降低成本并提升在Hopper和Blackwell系列GPU上的速度。随着Transformer模型变得日益复杂,这些进步旨在缩短训练时间,同时保持模型的准确性,这是AI竞争中的关键因素。
低精度训练,包括FP8和NVFP4格式,加速了主导Transformer工作负载的矩阵乘法(GEMMs)。例如,训练一个具有50亿参数的模型如CodonFM,需要对GEMMs进行大量计算。NVIDIA的新工具,如Transformer Engine,使AI研究人员能够对这些操作进行基准测试,并在投入昂贵的训练之前评估精度权衡。
关键基准测试和结果
在NVIDIA的B300 GPU上的基准测试显示,NVFP4在计算密集型操作中相较标准FP8格式提供了显著的加速。例如,在一次测试中,NVFP4在CodonFM架构的“MLP Down”GEMM组件中比FP8实现了1.66倍的加速。预量化基准测试进一步揭示了更大的潜力,NVFP4在原始内核吞吐量上比BF16快了3.48倍。
然而,结果也突出了局限性。较小的矩阵规模(如注意力输出层)由于动态量化的开销超过了低精度操作的收益,因此加速效果有限。此外,某些精度格式,例如FP8 DelayedScaling,表现出具有竞争力的性能,这表明为每个模型组件选择合适的格式至关重要。
重要性解析
随着Transformer模型参数规模达到数千亿甚至万亿,低精度训练变得越来越重要。这些模型推动了生成式AI的进步,从语言模型如GPTs到专门研究RNA的系统如CodonFM。
最近的趋势显示出对精度优化技术的日益采用。例如,Google的DeepMind在4位格式的量化感知训练(QAT)中实现了72%的VRAM使用量减少。同样,硬件-软件协同设计方法如TurboQuant在KV缓存存储中实现了高达6倍的压缩。NVIDIA的NVFP4融入了这一更广泛的趋势,为降低成本而不牺牲准确性提供了一种途径。
AI开发的实际意义
希望采用低精度训练的AI团队应遵循NVIDIA的建议,对其特定的Transformer配置进行基准测试。像Transformer Engine这样的工具允许用户模拟GEMM工作负载、分析精度格式,并估算端到端的训练收益。这不仅可以避免昂贵的错误,还能帮助识别瓶颈,例如量化开销或非最优内核选择。
对于生产就绪的部署,FP8仍然是主流格式,由NVIDIA的H100和B100 GPU支持。然而,NVFP4和类似的4位格式正成为大规模预训练和微调任务的可行选择,在性能与计算效率之间提供了平衡。AI从业者还应关注以稳定性为重点的研究,例如ICLR 2026关于低精度FlashAttention中舍入误差的见解,以确保稳健的训练结果。
下一步
随着低精度训练的发展,NVIDIA的基准测试表明行业的方向:硬件和软件之间的更紧密集成。开发者可以期待更多优化低精度格式的工具和框架,使模型更大、更快且更具成本效益。
对于渴望测试这些创新的团队,NVIDIA的基准测试脚本是一个合乎逻辑的起点。通过理解BF16、FP8和NVFP4等精度级别之间的权衡,AI从业者可以做出数据驱动的决策,从而最大化其基础设施和研究投资的价值。