NVIDIA CUDA 13.3 引入 Tile 编程到 C++

NVIDIA 随 CUDA 13.3 的发布，将其 CUDA Tile 编程模型扩展到 C++，标志着 GPU 内核优化的重大进展。CUDA Tile 之前仅在 Python 中可用，现在开发者可以在大型 C++ 代码库中利用基于 Tile 的抽象，简化高效 GPU 内核的创建。这一编程演进符合 NVIDIA 简化 AI 和高性能计算工作负载开发的更广泛目标。

基于 Tile 的编程于 2025 年 12 月随 CUDA 13.1 推出，代表着从传统的单指令多线程（SIMT）模型的转变。相反，开发者可以将 GPU 操作抽象为“Tile”——多维数组的逻辑切片。CUDA Tile 自动化了并行性、内存移动和异步性等方面，让程序员专注于算法而非底层硬件管理。

CUDA 13.3 对 C++ 的支持在此基础上进一步发展，引入了与 CUDA Tile 中间表示（IR）集成的 Tile 内核 API。此抽象实现了对 NVIDIA GPU 架构（从 Ampere 到即将推出的 Rubin 级 GPU）的可移植性，同时充分利用了 Tensor Core 和 Tensor Memory Accelerators（TMA）等高级功能。重要的是，Tile 编程模型确保了向后兼容性；开发者可以针对最新的 GPU 硬件进行优化，而无需为每一代硬件重写代码。

为什么重要

支持 C++ 的举措显著扩大了 CUDA Tile 的适用范围，因为 C++ 仍然是游戏、机器学习和科学计算等行业中 GPU 编程的主导语言。通过降低内核开发的复杂性，CUDA Tile 有助于加速 NVIDIA GPU 在 AI 工作负载中的采用，尤其是在学术研究和企业环境中。

2026 年 4 月发布的早期评估显示，CUDA Tile 能够在简化内核设计的同时保持 Tensor Core 的效率。NVIDIA 转向以 Tile 为中心的编程，与其专注于支持 AI 和高性能计算应用的张量优化架构的战略重点一致。

实际应用

对于开发者而言，CUDA Tile C++ 的实际好处来源于自动化。程序员无需明确管理线程工作负载，而是定义数据 Tile 的操作。例如，在 CUDA Tile C++ 中，一个简单的向量加法内核所需的显式命令比其 SIMT 对应版本要少。该模型还支持内存对齐和掩码操作等高级优化，确保 GPU 资源的高效利用。

CUDA Tile C++ 程序需要具备计算能力 8.x 或更高的硬件（Ampere 及以上），以及 CUDA Toolkit 13.3。NVIDIA 推荐使用 R610 或更新版本的驱动程序以实现最佳性能。Tile 内核还可以使用 NVIDIA Nsight Compute 进行分析，以微调性能指标。

市场背景

此发布正值 NVIDIA 继续主导 GPU 市场之际，截至 2026 年 5 月 26 日，其市值达到 5.24 万亿美元。公司对 CUDA Tile 等工具的关注反映出其巩固 AI 和机器学习基础设施领导地位的努力。随着企业越来越多地依赖张量优化架构来处理 AI 工作负载，CUDA Tile 的硬件抽象可能会让 NVIDIA 的 GPU 对希望简化复杂工作流的开发者更具吸引力。

对于交易员和分析师来说，NVIDIA 的软件生态系统仍然是关键的竞争优势。通过提高开发者的生产力并鼓励生态系统锁定，CUDA Tile 可能进一步巩固 NVIDIA 在 AI 硬件市场的地位，提供长期增长潜力。

展望未来

NVIDIA 对 CUDA Tile C++ 的支持彰显了其根据不断增长的 AI 需求，发展 GPU 编程范式的承诺。随着 CUDA 13.3 现已推出，开发者可以探索基于 Tile 的编程，以释放新的效率水平。对于想要入门的人来说，关键资源包括 CUDA Tile 编程指南和 CUDA Toolkit 13.3 下载页面。

NVIDIA CUDA 13.3 引入 Tile 编程到 C++

为什么重要

实际应用

市场背景

展望未来

Read More