世界-行为模型 (WAMs)：NVIDIA 在机器人领域的下一步

NVIDIA 正在深入开发世界-行为模型 (WAMs)，这是一种全新的 AI 范式，旨在解决机器人领域中一个长期存在的挑战：将复杂的视觉和语言输入转换为精确的现实世界行动。这一概念由 NVIDIA 研究员 Moritz Reuss 在博客文章中详细阐述，强调 WAMs 如何利用预训练的视频骨干网络来建模场景动态并预测相应的行动。这种方法有望补充甚至取代近年来主导该领域的视觉-语言-行为 (VLA) 模型。

WAMs 的核心理念

与传统的 VLA 模型不同，后者通过适配视觉-语言模型 (VLMs) 来生成行为，WAMs 则依赖于在大规模视频数据集上预训练的视频骨干网络。这些骨干网络擅长捕捉场景随时间演变的方式，通常以语言指令为条件。例如，WAM 可以预测基于视觉和文本线索，一个机器人手臂应如何移动以拿起一个杯子。这种预测能力可以解决 "落地鸿沟"——即将抽象的语言指令映射到可执行的运动指令，这一直是 VLA 模型的一个持久局限。

Reuss 指出，WAMs 并非完全新颖。早期版本，例如 2023 年的 UniPi 模型，探索了类似的想法，但受到缺乏强大视频骨干网络和从零开始训练的高计算成本的限制。如今，像 NVIDIA 的 Cosmos 和 Wan 这样的预训练视频模型使 WAMs 更加可访问并具有可扩展性，使研究人员能够微调这些骨干网络，而不是从头开始构建。

为什么是现在？

WAMs 的兴起与 AI 基础设施的更广泛进步保持一致。视频模型取得了显著改进，特别是随着基于变换器的架构（如 DiT 即扩散变换器）的采用。这些模型能够处理长视频序列，并比早期基于 CNN 的系统更有效地编码时空动态。此外，对预训练视频模型的开放访问降低了小型实验室的入门门槛，加速了该领域的创新。

然而，WAMs 也有其权衡之处。它们对视频骨干网络的依赖使得训练和部署成本高昂。例如，微调一个 140 亿参数的视频骨干网络（如 Wan）需要大量 GPU 资源，这使得其对较小型组织的可访问性降低。推理速度是另一个瓶颈；基于视频的预测生成可能比传统的 VLA 模型慢 3-4 倍，这可能限制其实时应用能力。

市场影响

商业风险很高。视觉-语言模型 (VLMs) 及其衍生模式（如 VLAs 和 WAMs）正在推动机器人、自主驾驶和医疗保健等行业的增长。全球 VLM 市场预计将从 2025 年的 33.5 亿美元增长到 2026 年的 42.4 亿美元，反映出 26.6% 的复合年增长率。NVIDIA 对 WAMs 的关注使其有机会利用这一增长，特别是在企业寻求更强大的具身 AI 解决方案的情况下。

值得注意的是，谷歌和苹果等竞争对手也在该领域取得进展。谷歌的 Veo 3.1 视频模型最近展示了零样本操控能力，而苹果的 Siri AI 升级则暗示了更广泛的多模态集成。NVIDIA 的 WAMs 通过专注于机器人领域，可能通过解决物理 AI 中的特定痛点开辟一个新领域。

接下来是什么？

虽然 WAMs 仍处于探索阶段，但其重塑机器人领域的潜力显而易见。真正的考验将是它们是否能在像 RoboArena 这样的现实基准测试中提供更优越的性能，在那里 NVIDIA 的 DreamZero 模型最近超越了领先的 VLA 系统。结合 WAM 和 VLA 元素的混合方法可能最终成为主导范式，利用两者的优势以弥合从指令到行动的鸿沟。

目前，NVIDIA 对 WAMs 的投资表明 AI 研究正向更动态、更具预测能力的现实应用模型迈进。随着该领域的演变，问题仍然是：WAMs 会成为机器人领域的首选架构，还是仅仅是通向更具变革性事物的垫脚石？

世界-行为模型 (WAMs)：NVIDIA 在机器人领域的下一步

WAMs 的核心理念

为什么是现在？

市场影响

接下来是什么？

Read More