Copied


世界-行为模型 (WAMs):NVIDIA 在机器人领域的下一步

realtime news   Jun 15, 2026 12:55 1 Min Read


NVIDIA 正在深入开发世界-行为模型 (WAMs),这是一种全新的 AI 范式,旨在解决机器人领域中一个长期存在的挑战:将复杂的视觉和语言输入转换为精确的现实世界行动。这一概念由 NVIDIA 研究员 Moritz Reuss 在博客文章中详细阐述,强调 WAMs 如何利用预训练的视频骨干网络来建模场景动态并预测相应的行动。这种方法有望补充甚至取代近年来主导该领域的视觉-语言-行为 (VLA) 模型。

WAMs 的核心理念

与传统的 VLA 模型不同,后者通过适配视觉-语言模型 (VLMs) 来生成行为,WAMs 则依赖于在大规模视频数据集上预训练的视频骨干网络。这些骨干网络擅长捕捉场景随时间演变的方式,通常以语言指令为条件。例如,WAM 可以预测基于视觉和文本线索,一个机器人手臂应如何移动以拿起一个杯子。这种预测能力可以解决 "落地鸿沟"——即将抽象的语言指令映射到可执行的运动指令,这一直是 VLA 模型的一个持久局限。

Reuss 指出,WAMs 并非完全新颖。早期版本,例如 2023 年的 UniPi 模型,探索了类似的想法,但受到缺乏强大视频骨干网络和从零开始训练的高计算成本的限制。如今,像 NVIDIA 的 Cosmos 和 Wan 这样的预训练视频模型使 WAMs 更加可访问并具有可扩展性,使研究人员能够微调这些骨干网络,而不是从头开始构建。

为什么是现在?

WAMs 的兴起与 AI 基础设施的更广泛进步保持一致。视频模型取得了显著改进,特别是随着基于变换器的架构(如 DiT 即扩散变换器)的采用。这些模型能够处理长视频序列,并比早期基于 CNN 的系统更有效地编码时空动态。此外,对预训练视频模型的开放访问降低了小型实验室的入门门槛,加速了该领域的创新。

然而,WAMs 也有其权衡之处。它们对视频骨干网络的依赖使得训练和部署成本高昂。例如,微调一个 140 亿参数的视频骨干网络(如 Wan)需要大量 GPU 资源,这使得其对较小型组织的可访问性降低。推理速度是另一个瓶颈;基于视频的预测生成可能比传统的 VLA 模型慢 3-4 倍,这可能限制其实时应用能力。

市场影响

商业风险很高。视觉-语言模型 (VLMs) 及其衍生模式(如 VLAs 和 WAMs)正在推动机器人、自主驾驶和医疗保健等行业的增长。全球 VLM 市场预计将从 2025 年的 33.5 亿美元增长到 2026 年的 42.4 亿美元,反映出 26.6% 的复合年增长率。NVIDIA 对 WAMs 的关注使其有机会利用这一增长,特别是在企业寻求更强大的具身 AI 解决方案的情况下。

值得注意的是,谷歌和苹果等竞争对手也在该领域取得进展。谷歌的 Veo 3.1 视频模型最近展示了零样本操控能力,而苹果的 Siri AI 升级则暗示了更广泛的多模态集成。NVIDIA 的 WAMs 通过专注于机器人领域,可能通过解决物理 AI 中的特定痛点开辟一个新领域。

接下来是什么?

虽然 WAMs 仍处于探索阶段,但其重塑机器人领域的潜力显而易见。真正的考验将是它们是否能在像 RoboArena 这样的现实基准测试中提供更优越的性能,在那里 NVIDIA 的 DreamZero 模型最近超越了领先的 VLA 系统。结合 WAM 和 VLA 元素的混合方法可能最终成为主导范式,利用两者的优势以弥合从指令到行动的鸿沟。

目前,NVIDIA 对 WAMs 的投资表明 AI 研究正向更动态、更具预测能力的现实应用模型迈进。随着该领域的演变,问题仍然是:WAMs 会成为机器人领域的首选架构,还是仅仅是通向更具变革性事物的垫脚石?


Read More