NVIDIA推出DynoSim以优化高效AI服务

NVIDIA发布了DynoSim，这是一款模拟工具，旨在通过映射工作负载配置的帕累托前沿来优化大型语言模型（LLM）的部署。这款工具于2026年5月29日发布，承诺可以降低GPU成本并简化大规模AI服务的基础设施规划。

现代LLM服务复杂性极高，涉及诸如张量并行配置、缓存行为、调度设置以及自动扩展阈值等相互依赖的变量。在现实环境中测试这些设置既耗时又昂贵。而DynoSim的出现解决了这一问题，它作为一个离散事件模拟器，可以以原子级粒度复制NVIDIA的Dynamo AI服务堆栈。通过建模前向传递时间、调度行为和缓存交互，DynoSim能够在不占用昂贵GPU资源的情况下快速进行实验。

例如，在使用NVIDIA的Mooncake追踪数据模拟23,608个请求的测试中，DynoSim在一台普通的Apple M4 MacBook Air上仅用2.41秒完成了工作负载处理，比实时处理快了1500倍。这使得开发人员能够在几分钟内测试数千种部署方案，避免了大型AI基础设施中常见的“测试验证”循环的耗时操作。

DynoSim的工作原理

DynoSim基于离散事件模拟（DES）运行在虚拟时间线上。它不是实时运行操作，而是安排未来的事件——例如请求到达、缓存移动或GPU工作负载——并直接跳转到下一时间戳。此方法使系统能够高效地建模决策及其连锁效应。

主要功能包括：

重播工具：模拟工作负载追踪并收集吞吐量、延迟和缓存重用等指标。
原子级精度：模拟特定后端组件的效果，支持细粒度的性能分析。
多引擎模拟：捕捉路由策略、缓存状态和调度决策之间复杂的反馈回路。

例如，DynoSim的KV感知路由将前缀缓存重用率从38%提升到44%，在模拟测试中减少了令牌首次响应时间（TTFT），并提高了吞吐量。同样，启用G2主机内存分层缓存减少了19.3%的预填充重新计算延迟，这凸显了其在调优缓存层次结构中的实用性。

对AI基础设施的影响

DynoSim的推出对部署LLM或其他资源密集型AI模型的企业而言意义重大。它使得大规模实验变得可行，帮助团队在实际使用GPU资源之前识别出最佳配置。NVIDIA设想DynoSim将成为一种“模拟优先”的部署设计方法，模拟将筛选出配置以供真实集群验证。

除了优化以外，DynoSim还为发现提供了可能性。NVIDIA已利用该工具评估自动扩展策略、路由算法和缓存策略。早期结果显示，例如将扩展间隔调优至5-10秒的最佳范围，表明该工具能够揭示静态测试中常常被忽略的可操作见解。

展望未来

NVIDIA计划将DynoSim与生产工作流集成，实现基于实时流量数据的持续再优化。随着流量模式的发展——工作负载的变化、突发模式的不同——模拟器可以推荐或直接应用更新的配置，确保系统始终在高效运行。

凭借其速度、精度和灵活性，DynoSim有潜力成为管理日益复杂的AI服务基础设施的重要工具。对于正在应对现代AI扩展挑战的团队来说，这是降低成本和提升性能的一大进步。

NVIDIA推出DynoSim以优化高效AI服务

DynoSim的工作原理

对AI基础设施的影响

展望未来

Read More