宣布 DreamDojo:我们的开源互动世界模型,它接收机器人运动控制并生成未来的像素。没有引擎,没有网格,没有手工编写的动态。这是模拟 2.0。是时候让机器人技术接受苦涩的教训了。 现实世界中的机器人学习受到时间、磨损、安全和重置的瓶颈。如果我们希望物理 AI 以预训练速度移动,我们需要一个能够适应预训练规模的模拟器,并尽可能少地依赖人类工程。 我们的关键见解:(1)人类自我中心的视频是可扩展的第一人称物理来源;(2)潜在动作使其在不同硬件上“机器人可读”;(3)实时推理解锁了在梦中进行的实时遥控、策略评估和测试时规划。 我们在 44K 小时的人类视频上进行预训练:便宜、丰富,并且在没有机器人参与的情况下收集。人类已经探索了组合学:我们抓取、倒入、折叠、组装、失败、重试——在杂乱的场景、变化的视角、变化的光线和长达一小时的任务链中——以任何机器人车队无法匹敌的规模。缺失的部分:这些视频没有动作标签。因此,我们引入了潜在动作:一种直接从视频中推断出的统一表示,捕捉“世界状态之间发生了什么变化”,而无需了解底层硬件。这使我们能够像处理附带运动指令的第一人称视频一样进行训练。 因此,DreamDojo 在从未在任何机器人训练集中见过的物体和环境中实现了零-shot 泛化,因为人类首先看到了它们。 接下来,我们对每个机器人进行后训练,以适应其特定硬件。可以将其视为将“世界的外观和行为”与“这个特定机器人如何驱动”分开。基础模型遵循一般物理规则,然后“贴合”机器人的独特机制。这有点像在 Unreal Engine 中加载一个新角色和场景资产,但通过梯度下降完成,并且泛化远远超出后训练数据集。 一个世界模拟器只有在运行速度足够快以闭合循环时才有用。我们训练了一个实时版本的 DreamDojo,运行速度为 10 FPS,稳定运行超过一分钟的连续展开。这解锁了令人兴奋的可能性: - 在梦中进行实时遥控。连接 VR 控制器,将动作流入 DreamDojo,并实时遥控虚拟机器人。我们在 Unitree G1 上演示了这一点,使用 PICO 头显和一台 RTX 5090。 - 策略评估。您可以在 DreamDojo 中基准测试策略检查点,而不是在现实世界中。模拟的成功率与现实世界的结果强相关——足够准确,可以在不烧掉一个电机的情况下对检查点进行排名。 - 基于模型的规划。采样多个动作提案 → 并行模拟所有动作 → 选择最佳未来。在水果包装任务中,开箱即用的现实世界成功率提高了 17%。 我们开源一切!!权重、代码、后训练数据集、评估集,以及包含大量细节以便重现的白皮书。DreamDojo 基于 NVIDIA Cosmos,也开放权重。 2026 年是物理 AI 的世界模型之年。我们希望您与我们一起构建。祝您扩展愉快! 线程中的链接: