我们训练了一种具有22个自由度灵巧手的类人机器人,能够组装模型车、操作注射器、分类扑克牌、折叠/卷起衬衫,这些都是主要通过20,000小时以上的以自我为中心的人类视频学习的,过程中没有机器人参与。 人类是地球上最具可扩展性的体现。我们发现人类视频量与动作预测损失之间存在近乎完美的对数线性缩放法则(R² = 0.998),而这个损失直接预测真实机器人成功率。 类人机器人将是最终目标,因为它们是与人类之间最小体现差距的实用形态。可以称之为机器人硬件的苦涩教训:运动学相似性使我们能够简单地将人类手指运动重新定向到灵巧机器人手关节上。不需要学习嵌入,也不需要复杂的迁移算法。相对手腕运动 + 重新定向的22个自由度手指动作构成了一个统一的动作空间,从预训练到机器人执行都能保持一致。 我们的配方称为“EgoScale”: - 在20K小时的人类视频上预训练GR00T N1.5,仅用4小时(!)的机器人玩耍数据与Sharpa手进行中期训练。在5个高度灵巧的任务中,相比从头开始训练提高了54%的效果。 - 最令人惊讶的结果是:一个*单一*的远程操作演示足以学习一个前所未见的任务。我们的配方实现了极高的数据效率。 - 尽管我们在22个自由度的手关节空间中进行预训练,但策略可以转移到具有7个自由度三指手的Unitree G1上。在仅使用G1数据的训练中提高了30%以上。 通往机器人灵巧性的可扩展路径从来不是更多的机器人,而是我们自己。 深入讨论请见线程: