NVIDIA CUDA 13.3 引入 Tile 编程到 C++
NVIDIA 随 CUDA 13.3 的发布,将其 CUDA Tile 编程模型扩展到 C++,标志着 GPU 内核优化的重大进展。CUDA Tile 之前仅在 Python 中可用,现在开发者可以在大型 C++ 代码库中利用基于 Tile 的抽象,简化高效 GPU 内核的创建。这一编程演进符合 NVIDIA 简化 AI 和高性能计算工作负载开发的更广泛目标。
基于 Tile 的编程于 2025 年 12 月随 CUDA 13.1 推出,代表着从传统的单指令多线程(SIMT)模型的转变。相反,开发者可以将 GPU 操作抽象为“Tile”——多维数组的逻辑切片。CUDA Tile 自动化了并行性、内存移动和异步性等方面,让程序员专注于算法而非底层硬件管理。
CUDA 13.3 对 C++ 的支持在此基础上进一步发展,引入了与 CUDA Tile 中间表示(IR)集成的 Tile 内核 API。此抽象实现了对 NVIDIA GPU 架构(从 Ampere 到即将推出的 Rubin 级 GPU)的可移植性,同时充分利用了 Tensor Core 和 Tensor Memory Accelerators(TMA)等高级功能。重要的是,Tile 编程模型确保了向后兼容性;开发者可以针对最新的 GPU 硬件进行优化,而无需为每一代硬件重写代码。
为什么重要
支持 C++ 的举措显著扩大了 CUDA Tile 的适用范围,因为 C++ 仍然是游戏、机器学习和科学计算等行业中 GPU 编程的主导语言。通过降低内核开发的复杂性,CUDA Tile 有助于加速 NVIDIA GPU 在 AI 工作负载中的采用,尤其是在学术研究和企业环境中。
2026 年 4 月发布的早期评估显示,CUDA Tile 能够在简化内核设计的同时保持 Tensor Core 的效率。NVIDIA 转向以 Tile 为中心的编程,与其专注于支持 AI 和高性能计算应用的张量优化架构的战略重点一致。
实际应用
对于开发者而言,CUDA Tile C++ 的实际好处来源于自动化。程序员无需明确管理线程工作负载,而是定义数据 Tile 的操作。例如,在 CUDA Tile C++ 中,一个简单的向量加法内核所需的显式命令比其 SIMT 对应版本要少。该模型还支持内存对齐和掩码操作等高级优化,确保 GPU 资源的高效利用。
CUDA Tile C++ 程序需要具备计算能力 8.x 或更高的硬件(Ampere 及以上),以及 CUDA Toolkit 13.3。NVIDIA 推荐使用 R610 或更新版本的驱动程序以实现最佳性能。Tile 内核还可以使用 NVIDIA Nsight Compute 进行分析,以微调性能指标。
市场背景
此发布正值 NVIDIA 继续主导 GPU 市场之际,截至 2026 年 5 月 26 日,其市值达到 5.24 万亿美元。公司对 CUDA Tile 等工具的关注反映出其巩固 AI 和机器学习基础设施领导地位的努力。随着企业越来越多地依赖张量优化架构来处理 AI 工作负载,CUDA Tile 的硬件抽象可能会让 NVIDIA 的 GPU 对希望简化复杂工作流的开发者更具吸引力。
对于交易员和分析师来说,NVIDIA 的软件生态系统仍然是关键的竞争优势。通过提高开发者的生产力并鼓励生态系统锁定,CUDA Tile 可能进一步巩固 NVIDIA 在 AI 硬件市场的地位,提供长期增长潜力。
展望未来
NVIDIA 对 CUDA Tile C++ 的支持彰显了其根据不断增长的 AI 需求,发展 GPU 编程范式的承诺。随着 CUDA 13.3 现已推出,开发者可以探索基于 Tile 的编程,以释放新的效率水平。对于想要入门的人来说,关键资源包括 CUDA Tile 编程指南 和 CUDA Toolkit 13.3 下载页面。