一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Jim Fan

NVIDIA 机器人总监和杰出科学家。GEAR 实验室联合负责人。解决物理 AGI，一次一个电机。斯坦福大学博士，OpenAI 的第一位实习生。

宣布 DreamDojo：我们的开源互动世界模型，它接收机器人运动控制并生成未来的像素。没有引擎，没有网格，没有手工编写的动态。这是模拟 2.0。是时候让机器人技术接受苦涩的教训了。现实世界中的机器人学习受到时间、磨损、安全和重置的瓶颈。如果我们希望物理 AI 以预训练速度移动，我们需要一个能够适应预训练规模的模拟器，并尽可能少地依赖人类工程。我们的关键见解：（1）人类自我中心的视频是可扩展的第一人称物理来源；（2）潜在动作使其在不同硬件上“机器人可读”；（3）实时推理解锁了在梦中进行的实时遥控、策略评估和测试时规划。我们在 44K 小时的人类视频上进行预训练：便宜、丰富，并且在没有机器人参与的情况下收集。人类已经探索了组合学：我们抓取、倒入、折叠、组装、失败、重试——在杂乱的场景、变化的视角、变化的光线和长达一小时的任务链中——以任何机器人车队无法匹敌的规模。缺失的部分：这些视频没有动作标签。因此，我们引入了潜在动作：一种直接从视频中推断出的统一表示，捕捉“世界状态之间发生了什么变化”，而无需了解底层硬件。这使我们能够像处理附带运动指令的第一人称视频一样进行训练。因此，DreamDojo 在从未在任何机器人训练集中见过的物体和环境中实现了零-shot 泛化，因为人类首先看到了它们。接下来，我们对每个机器人进行后训练，以适应其特定硬件。可以将其视为将“世界的外观和行为”与“这个特定机器人如何驱动”分开。基础模型遵循一般物理规则，然后“贴合”机器人的独特机制。这有点像在 Unreal Engine 中加载一个新角色和场景资产，但通过梯度下降完成，并且泛化远远超出后训练数据集。一个世界模拟器只有在运行速度足够快以闭合循环时才有用。我们训练了一个实时版本的 DreamDojo，运行速度为 10 FPS，稳定运行超过一分钟的连续展开。这解锁了令人兴奋的可能性： - 在梦中进行实时遥控。连接 VR 控制器，将动作流入 DreamDojo，并实时遥控虚拟机器人。我们在 Unitree G1 上演示了这一点，使用 PICO 头显和一台 RTX 5090。 - 策略评估。您可以在 DreamDojo 中基准测试策略检查点，而不是在现实世界中。模拟的成功率与现实世界的结果强相关——足够准确，可以在不烧掉一个电机的情况下对检查点进行排名。 - 基于模型的规划。采样多个动作提案 → 并行模拟所有动作 → 选择最佳未来。在水果包装任务中，开箱即用的现实世界成功率提高了 17%。我们开源一切！！权重、代码、后训练数据集、评估集，以及包含大量细节以便重现的白皮书。DreamDojo 基于 NVIDIA Cosmos，也开放权重。 2026 年是物理 AI 的世界模型之年。我们希望您与我们一起构建。祝您扩展愉快！线程中的链接：