我們訓練了一個擁有22自由度靈巧手的類人機器人來組裝模型車、操作注射器、分類撲克牌、摺疊/捲起襯衫,這些都是主要從20,000小時以上的以自我為中心的人類視頻中學習的,並且沒有機器人在其中。 人類是地球上最具可擴展性的具體化。我們發現人類視頻量與行動預測損失之間存在近乎完美的對數線性縮放法則(R² = 0.998),而這一損失直接預測真實機器人的成功率。 類人機器人將是最終的解決方案,因為它們是與人類之間具體化差距最小的實用形態。可以稱之為機器人硬體的苦澀教訓:運動學相似性使我們能夠簡單地將人類手指運動重新定向到靈巧機器人手關節上。不需要學習嵌入,也不需要花哨的轉移算法。相對手腕運動 + 重新定向的22自由度手指動作作為一個統一的行動空間,從預訓練到機器人執行都能保持一致。 我們的配方稱為 "EgoScale": - 在20K小時的人類視頻上預訓練GR00T N1.5,中訓練僅用4小時的機器人遊玩數據與Sharpa手進行。相較於從零開始訓練,在5個高度靈巧的任務上獲得54%的增益。 - 最令人驚訝的結果:*單個*遠程操作演示足以學習一個前所未見的任務。我們的配方實現了極端的數據效率。 - 雖然我們在22自由度手關節空間中進行預訓練,但該策略可以轉移到擁有7自由度三指手的Unitree G1上。僅在G1數據上訓練就獲得30%以上的增益。 通往機器人靈巧性的可擴展路徑從來不是更多的機器人,而是我們自己。 深入討論在主題中: