热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Jim Fan
NVIDIA 机器人总监和杰出科学家。GEAR 实验室联合负责人。解决物理 AGI,一次一个电机。斯坦福大学博士,OpenAI 的第一位实习生。
我们训练了一种具有22个自由度灵巧手的类人机器人,能够组装模型车、操作注射器、分类扑克牌、折叠/卷起衬衫,这些都是主要通过20,000小时以上的以自我为中心的人类视频学习的,过程中没有机器人参与。
人类是地球上最具可扩展性的体现。我们发现人类视频量与动作预测损失之间存在近乎完美的对数线性缩放法则(R² = 0.998),而这个损失直接预测真实机器人成功率。
类人机器人将是最终目标,因为它们是与人类之间最小体现差距的实用形态。可以称之为机器人硬件的苦涩教训:运动学相似性使我们能够简单地将人类手指运动重新定向到灵巧机器人手关节上。不需要学习嵌入,也不需要复杂的迁移算法。相对手腕运动 + 重新定向的22个自由度手指动作构成了一个统一的动作空间,从预训练到机器人执行都能保持一致。
我们的配方称为“EgoScale”:
- 在20K小时的人类视频上预训练GR00T N1.5,仅用4小时(!)的机器人玩耍数据与Sharpa手进行中期训练。在5个高度灵巧的任务中,相比从头开始训练提高了54%的效果。
- 最令人惊讶的结果是:一个*单一*的远程操作演示足以学习一个前所未见的任务。我们的配方实现了极高的数据效率。
- 尽管我们在22个自由度的手关节空间中进行预训练,但策略可以转移到具有7个自由度三指手的Unitree G1上。在仅使用G1数据的训练中提高了30%以上。
通往机器人灵巧性的可扩展路径从来不是更多的机器人,而是我们自己。
深入讨论请见线程:
200
宣布 DreamDojo:我们的开源互动世界模型,它接收机器人运动控制并生成未来的像素。没有引擎,没有网格,没有手工编写的动态。这是模拟 2.0。是时候让机器人技术接受苦涩的教训了。
现实世界中的机器人学习受到时间、磨损、安全和重置的瓶颈。如果我们希望物理 AI 以预训练速度移动,我们需要一个能够适应预训练规模的模拟器,并尽可能少地依赖人类工程。
我们的关键见解:(1)人类自我中心的视频是可扩展的第一人称物理来源;(2)潜在动作使其在不同硬件上“机器人可读”;(3)实时推理解锁了在梦中进行的实时遥控、策略评估和测试时规划。
我们在 44K 小时的人类视频上进行预训练:便宜、丰富,并且在没有机器人参与的情况下收集。人类已经探索了组合学:我们抓取、倒入、折叠、组装、失败、重试——在杂乱的场景、变化的视角、变化的光线和长达一小时的任务链中——以任何机器人车队无法匹敌的规模。缺失的部分:这些视频没有动作标签。因此,我们引入了潜在动作:一种直接从视频中推断出的统一表示,捕捉“世界状态之间发生了什么变化”,而无需了解底层硬件。这使我们能够像处理附带运动指令的第一人称视频一样进行训练。
因此,DreamDojo 在从未在任何机器人训练集中见过的物体和环境中实现了零-shot 泛化,因为人类首先看到了它们。
接下来,我们对每个机器人进行后训练,以适应其特定硬件。可以将其视为将“世界的外观和行为”与“这个特定机器人如何驱动”分开。基础模型遵循一般物理规则,然后“贴合”机器人的独特机制。这有点像在 Unreal Engine 中加载一个新角色和场景资产,但通过梯度下降完成,并且泛化远远超出后训练数据集。
一个世界模拟器只有在运行速度足够快以闭合循环时才有用。我们训练了一个实时版本的 DreamDojo,运行速度为 10 FPS,稳定运行超过一分钟的连续展开。这解锁了令人兴奋的可能性:
- 在梦中进行实时遥控。连接 VR 控制器,将动作流入 DreamDojo,并实时遥控虚拟机器人。我们在 Unitree G1 上演示了这一点,使用 PICO 头显和一台 RTX 5090。
- 策略评估。您可以在 DreamDojo 中基准测试策略检查点,而不是在现实世界中。模拟的成功率与现实世界的结果强相关——足够准确,可以在不烧掉一个电机的情况下对检查点进行排名。
- 基于模型的规划。采样多个动作提案 → 并行模拟所有动作 → 选择最佳未来。在水果包装任务中,开箱即用的现实世界成功率提高了 17%。
我们开源一切!!权重、代码、后训练数据集、评估集,以及包含大量细节以便重现的白皮书。DreamDojo 基于 NVIDIA Cosmos,也开放权重。
2026 年是物理 AI 的世界模型之年。我们希望您与我们一起构建。祝您扩展愉快!
线程中的链接:
376
热门
排行
收藏

