Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Директор NVIDIA по робототехнике и заслуженный ученый. Соруководитель лаборатории GEAR. Решение физического AGI, по одному двигателю за раз. Стэнфордский доктор философии, 1-й стажер OpenAI.
Мы обучили гуманоидного робота с 22 степенями свободы (DoF) ловкими руками собирать модельные автомобили, управлять шприцами, сортировать покерные карты, складывать/скатывать рубашки, все это было изучено в основном на основе более 20,000 часов эгоцентрического видео с участием человека без участия робота.
Люди являются самой масштабируемой формой на планете. Мы обнаружили почти идеальный логарифмически-линейный закон масштабирования (R² = 0.998) между объемом видео с участием человека и потерей предсказания действий, и эта потеря напрямую предсказывает коэффициент успеха реального робота.
Гуманоидные роботы будут конечной целью, потому что они представляют собой практическую форму с минимальным разрывом в воплощении от людей. Назовите это Горьким Уроком аппаратного обеспечения роботов: кинематическая схожесть позволяет нам просто перенаправить движение человеческих пальцев на суставы ловких рук робота. Никаких изученных встраиваний, никаких сложных алгоритмов переноса не требуется. Относительное движение запястья + перенаправленные действия пальцев с 22 степенями свободы служат единым пространством действий, которое сохраняется от предварительного обучения до выполнения роботом.
Наш рецепт называется "EgoScale":
- Предварительное обучение GR00T N1.5 на 20K часов видео с участием человека, среднее обучение только на 4 часах (!) данных игры робота с руками Sharpa. 54% прирост по сравнению с обучением с нуля по 5 высоколовким задачам.
- Самый удивительный результат: *один* демонстрационный сеанс телеприсутствия достаточен для изучения ранее не видимой задачи. Наш рецепт обеспечивает экстремальную эффективность данных.
- Хотя мы предварительно обучаем в пространстве суставов рук с 22 степенями свободы, политика переносится на Unitree G1 с 7 степенями свободы и трипальцевыми руками. Прирост более 30% по сравнению с обучением только на данных G1.
Масштабируемый путь к ловкости роботов никогда не был в большем количестве роботов. Это всегда были мы.
Глубокие погружения в теме:
191
Объявляем о DreamDojo: нашей открытой интерактивной модели мира, которая берет управление моторами робота и генерирует будущее в пикселях. Никакого движка, никаких мешей, никакой ручной динамики. Это Симуляция 2.0. Время для робототехники усвоить горький урок.
Обучение роботов в реальном мире ограничено временем, износом, безопасностью и сбросами. Если мы хотим, чтобы Физический ИИ двигался с предобученной скоростью, нам нужен симулятор, который адаптируется к масштабу предобучения с минимальным человеческим вмешательством.
Наши ключевые идеи: (1) человеческие эгоцентрические видео являются масштабируемым источником физики от первого лица; (2) латентные действия делают их "читаемыми для роботов" на разных аппаратных платформах; (3) вывод в реальном времени открывает возможность живого телеприсутствия, оценки политики и планирования в тестовом режиме *внутри* мечты.
Мы предварительно обучаем на 44K часов человеческих видео: дешево, в избытке и собранных без участия робота. Люди уже исследовали комбинаторику: мы захватываем, наливаем, складываем, собираем, терпим неудачи, пробуем снова — в загроможденных сценах, меняющихся ракурсах, изменяющемся освещении и часовых цепочках задач — на масштабе, который ни один флот роботов не мог бы достичь. Недостающее звено: эти видео не имеют меток действий. Поэтому мы вводим латентные действия: унифицированное представление, выведенное непосредственно из видео, которое захватывает "что изменилось между состояниями мира" без знания об аппаратном обеспечении. Это позволяет нам обучаться на любом видео от первого лица, как если бы оно было с прикрепленными командами управления.
В результате DreamDojo обобщает нулевым образом на объекты и окружения, которые никогда не видели в любом наборе данных для обучения роботов, потому что люди видели их первыми.
Далее мы дообучаем на каждом роботе, чтобы адаптироваться к его конкретному оборудованию. Подумайте об этом как о разделении "как выглядит и ведет себя мир" от "как этот конкретный робот действует". Базовая модель следует общим физическим правилам, затем "прилипает" к уникальной механике робота. Это похоже на загрузку нового персонажа и активов сцены в Unreal Engine, но сделано через градиентный спуск и обобщается далеко за пределы набора данных для дообучения.
Симулятор мира полезен только в том случае, если он работает достаточно быстро, чтобы замкнуть цикл. Мы обучаем версию DreamDojo в реальном времени, которая работает на 10 FPS, стабильно в течение более минуты непрерывного развертывания. Это открывает захватывающие возможности:
- Живое телеприсутствие *внутри* мечты. Подключите VR-контроллер, передайте действия в DreamDojo и управляйте виртуальным роботом в реальном времени. Мы демонстрируем это на Unitree G1 с гарнитурой PICO и одной RTX 5090.
- Оценка политики. Вы можете оценить контрольную точку политики в DreamDojo вместо реального мира. Успехи в симуляции сильно коррелируют с результатами в реальном мире - достаточно точно, чтобы ранжировать контрольные точки, не сжигая ни одного мотора.
- Планирование на основе модели. Сгенерируйте несколько предложений действий → симулируйте их все параллельно → выберите лучшее будущее. Увеличение на +17% успеха в реальном мире с самого начала на задаче упаковки фруктов.
Мы открываем все!! Веса, код, набор данных для дообучения, набор для оценки и научную статью с множеством деталей для воспроизведения. DreamDojo основан на NVIDIA Cosmos, который тоже с открытыми весами.
2026 год - это год Мировых Моделей для физического ИИ. Мы хотим, чтобы вы строили вместе с нами. Счастливого масштабирования!
Ссылки в теме:
368
Топ
Рейтинг
Избранное

