Мы обучили гуманоидного робота с 22 степенями свободы (DoF) ловкими руками собирать модельные автомобили, управлять шприцами, сортировать покерные карты, складывать/скатывать рубашки, все это было изучено в основном на основе более 20,000 часов эгоцентрического видео с участием человека без участия робота. Люди являются самой масштабируемой формой на планете. Мы обнаружили почти идеальный логарифмически-линейный закон масштабирования (R² = 0.998) между объемом видео с участием человека и потерей предсказания действий, и эта потеря напрямую предсказывает коэффициент успеха реального робота. Гуманоидные роботы будут конечной целью, потому что они представляют собой практическую форму с минимальным разрывом в воплощении от людей. Назовите это Горьким Уроком аппаратного обеспечения роботов: кинематическая схожесть позволяет нам просто перенаправить движение человеческих пальцев на суставы ловких рук робота. Никаких изученных встраиваний, никаких сложных алгоритмов переноса не требуется. Относительное движение запястья + перенаправленные действия пальцев с 22 степенями свободы служат единым пространством действий, которое сохраняется от предварительного обучения до выполнения роботом. Наш рецепт называется "EgoScale": - Предварительное обучение GR00T N1.5 на 20K часов видео с участием человека, среднее обучение только на 4 часах (!) данных игры робота с руками Sharpa. 54% прирост по сравнению с обучением с нуля по 5 высоколовким задачам. - Самый удивительный результат: *один* демонстрационный сеанс телеприсутствия достаточен для изучения ранее не видимой задачи. Наш рецепт обеспечивает экстремальную эффективность данных. - Хотя мы предварительно обучаем в пространстве суставов рук с 22 степенями свободы, политика переносится на Unitree G1 с 7 степенями свободы и трипальцевыми руками. Прирост более 30% по сравнению с обучением только на данных G1. Масштабируемый путь к ловкости роботов никогда не был в большем количестве роботов. Это всегда были мы. Глубокие погружения в теме: