NVIDIA CUDA 13.3 提升 GPU 编程能力,引入 Tile C++ 和 Python
NVIDIA (NASDAQ: NVDA) 发布了 CUDA 13.3,这是其并行计算平台的最新版本,为 GPU 开发者带来了新的功能。主要升级包括推出 CUDA Tile 编程(基于 C++)以及引入 CUDA Python 1.0。这些更新旨在简化高性能 GPU 内核开发,同时带来显著的性能提升。
其中一项亮点是 CUDA Tile 编程(基于 C++),它使开发者能够创建基于 Tile 的 GPU 内核。这种高级抽象自动化了低级别的 GPU 任务,例如并行化和内存管理,并确保了在 NVIDIA GPU 架构(包括最新的 Hopper GPU,计算能力 9.0)之间的可移植性。Tile 编程预计将简化利用 Tensor Core 进行 AI 和 HPC 工作负载的开发者的工作流程。
在 Python 方面,CUDA Python 1.0 通过采用语义版本控制(Semantic Versioning)达到了一个里程碑。这为生产环境确保了 API 的稳定性。值得注意的功能包括绿色上下文(Green Contexts),可为延迟敏感任务分区 GPU 资源,以及进程检查点(Process Checkpointing),这是一项 Linux 独有的功能,使开发者能够快照并恢复 GPU 状态。这些新增功能满足了 AI 和机器学习(ML)应用中日益复杂的资源管理需求。
性能提升:CompileIQ 和更新的库
CUDA 13.3 引入了 CompileIQ,这是一种编译器自动调优框架,旨在优化 GPU 内核性能。通过使用遗传算法,CompileIQ 在关键内核(如 GEMM 和 Attention)上实现了高达 15% 的加速,这些内核是大型语言模型(LLM)推理的核心。这一改进解决了部署 AI 模型时最具计算挑战性的方面之一。
除了 CompileIQ,NVIDIA 还增强了其核心 CUDA 数学库,包括 cuBLAS、cuSPARSE 和 cuSOLVER。更新内容涵盖在 NVIDIA 最新的 Blackwell GPU 上改进了 FP4 和 TF32 矩阵乘法的性能,以及稀疏矩阵操作的新算法。AI、科学计算和仿真领域的开发者将从这些优化中显著受益。
扩展生态系统:Python、CCCL 和 C++23
CUDA 13.3 通过在 NVCC 编译器中全面支持 C++23 和在 CCCL 3.3 中引入新的 Python API 扩展了其生态系统。Python 开发者可以使用 CUDA 核心计算库(CCCL)实现高性能算法(如并行排序和归约),并为 Numba 用户提供实验性的协作原语。
张量互操作性也有了显著进步。开发者现在可以使用 DLPack 在 PyTorch 和 CUDA C++ 等框架之间无缝映射张量,从而减少混合语言项目中的开发开销。
市场背景
CUDA 13.3 的发布凸显了 NVIDIA 在 GPU 加速计算领域的持续主导地位。截至 2026 年 5 月 26 日,NVIDIA 的市值达到 5.24 万亿美元,CUDA 的应用不仅局限于 AI 和 HPC,还涵盖工业 AI 和仿真领域,这一点从最近与西门子等软件巨头的合作中可见一斑。
这些更新强化了 NVIDIA 将 CUDA 深度整合到 AI、数字孪生和制造工作流程中的策略——这些是公司增长的关键领域。对于投资者而言,CUDA 的持续创新巩固了 NVIDIA 在 AI 和 GPU 领域的领导地位,支持其每股 214.86 美元的估值。
开发者可以通过访问 NVIDIA 官网下载 CUDA 13.3 工具包来开始探索新功能,这些功能有望塑造 GPU 编程的未来。