Copied


NVIDIA Dynamo Snapshot 解决 Kubernetes AI 冷启动问题

realtime news   May 28, 2026 00:05 1 Min Read


NVIDIA 正在解决 Kubernetes 中最持久的挑战之一——针对 AI 推理工作负载的冷启动延迟问题。该公司推出了 Dynamo Snapshot,这是一种检查点/恢复解决方案,旨在显著加速 GPU 支持的推理容器的启动时间。早期测试表明,其初始化时间可能低于 5 秒,与传统 Kubernetes 设置通常需要的几分钟形成鲜明对比。

冷启动长期以来一直是 Kubernetes 中 AI 工作负载的瓶颈,因为需求波动要求推理副本实时弹性扩展。在扩展事件期间,GPU 可能会闲置,从而可能导致服务级别协议 (SLA) 违规。根据 2026 年 3 月的一项分析,AI 工作负载的冷启动延迟通常源于从模型加载到 CUDA 上下文初始化的顺序瓶颈。

Dynamo Snapshot 的工作原理

Dynamo Snapshot 框架利用了两个主要工具:NVIDIA 的 cuda-checkpoint 用于 GPU 状态序列化,以及开源的 CRIU(用户空间中的检查点/恢复)用于 CPU 侧进程快照。该系统捕获了主机和设备状态,使推理工作者能够恢复到其检查点前的确切状态。此过程不仅加速了初始化,还确保恢复的工作者能够无缝恢复执行。

优化包括定义 Kubernetes 就绪探针,以在最佳状态(引擎初始化后但分布式运行时启动前)对工作者进行检查点。这确保了检查点工件保持较小,同时避免了无法恢复的活跃 TCP 连接问题。

突破性优化

NVIDIA 实现了几项额外的性能改进,以解决 CRIU 的固有限制:

  • 并行 memfd 恢复:通过线程池并行恢复共享内存缓冲区,最大化 CPU 和存储带宽。
  • Linux 原生 AIO(异步 I/O):私有内存读取现在以并行方式处理,通过消除上游 CRIU 中的单线程瓶颈显著减少恢复时间。
  • GPU Memory Service (GMS):将大型模型权重与核心检查点分离,通过类似 GPUDirect Storage 的快速通道实现异步权重恢复。此方法极大地缩短了端到端恢复时间,对于像 GPT-OSS-120B 这样的大型模型,当与 NVMe SSD 结合使用时,实现了 21 倍的速度提升。

这些进步将单 GPU 工作负载(如 Qwen3-0.6B)的冷启动时间缩短至不到 5 秒,与传统的 Kubernetes 冷启动相比,这是一个显著的改进,尤其是在推理密集型部署中,传统冷启动可能需要数分钟甚至更长时间。

重要性

冷启动优化一直是 Kubernetes AI 工作负载支持的核心关注点,这在 2026 年 5 月发布的 Kubernetes v1.36 中得到了体现,该版本强化了安全默认设置,同时改进了 GPU 编排。像 Dynamo Snapshot 这样的解决方案是满足现代 AI 推理工作负载需求的重要一步,这些需求在云原生部署中日益占据主导地位。

最近的其他创新包括 CNCF Fluid,通过数据预取将 LLM 冷启动时间减少到约 30 秒,以及强化学习驱动的预热策略,将冷启动时间减少了超过 50%。NVIDIA 的方法通过解决推理工作负载的 GPU 特定挑战脱颖而出,为大型模型提供接近“光速”的性能。

未来展望

NVIDIA 计划在未来几个月扩大 Dynamo Snapshot 的功能,包括多 GPU 和多节点支持、TensorRT-LLM 集成以及可插件化的 GPU 内存后端。实验性版本已经支持 vLLM 和 SGLang 单 GPU 工作负载,但即将推出的更新承诺将扩大其适用范围。

虽然冷启动问题不会一夜之间消失,但 NVIDIA 的 Dynamo Snapshot 展现了硬件和软件优化融合时的可能性。对于在 Kubernetes 上运行推理密集型 AI 工作负载的企业来说,这可能是成本效率、SLA 合规性和用户体验的游戏规则改变者。


Read More