Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Оголошуємо DreamDojo: нашу відкриту інтерактивну модель світу, яка бере керування роботизованим мотором і генерує майбутнє у пікселях. Немає двигуна, немає мешів, немає ручної динаміки. Це Симуляція 2.0. Час робототехніці прийняти гіркий урок.
Навчання роботів у реальному світі обмежене часом, зношенням, безпекою та скиданням. Якщо ми хочемо, щоб фізичний ШІ рухався зі швидкістю до підготовки, нам потрібен симулятор, який адаптується до масштабу попереднього навчання з мінімальною кількістю людської інженерії.
Наші ключові інсайти: (1) людські егоцентричні відео є масштабованим джерелом фізики від першої особи; (2) латентні дії роблять їх «роботизованими» на різних апаратних системах; (3) Висновки в реальному часі відкривають живий Teleop, оцінку політики та планування під час тестування *всередині* сну.
Ми проходимо попереднє навчання на 44 тисячі годин людських відео: дешевих, достатніх і зібраних без жодного робота в циклі. Люди вже досліджували комбінаторику: ми хапаємо, наливаємо, складаємо, збираємо, зазнаємо невдачі, знову пробуємо — крізь захаращені сцени, змінні точки зору, зміну світла та годинні ланцюги завдань — у масштабах, яких жоден флот роботів не зрівняється. Відсутній елемент: ці відео не мають написів для дій. Тому ми вводимо латентні дії: єдине представлення, яке безпосередньо виводиться з відео, яке фіксує «те, що змінилося між світовими станами», не знаючи базового апаратного забезпечення. Це дозволяє нам тренуватися на будь-якому відео від першої особи, ніби воно супроводжується моторними командами.
Внаслідок цього DreamDojo узагальнює zero-shot на об'єкти та середовища, які ніколи не бачили в жодному тренувальному наборі роботів, бо люди бачили їх першими.
Далі ми тренуємося на кожному роботі, щоб він підлаштував його спеціальне обладнання. Уявіть це як відокремлення «того, як виглядає і поводиться світ» від «того, як цей конкретний робот діє». Базова модель слідує загальним фізичним правилам, а потім «приєднується» до унікальних механік робота. Це схоже на завантаження нового персонажа та ресурсів сцени в Unreal Engine, але через градієнтний спуск і узагальнення далеко за межі посттренувального набору даних.
Світовий симулятор корисний лише якщо він працює достатньо швидко, щоб закрити цикл. Ми тренуємо версію DreamDojo в реальному часі, яка працює зі швидкістю 10 FPS, стабільною понад хвилину безперервного запуску. Це відкриває захопливі можливості:
- Жива телеоперація *всередині* сну. Підключіть VR-контролер, транслюйте дії в DreamDojo та телеопуйте віртуального робота в реальному часі. Ми демонструємо це на Unitree G1 з гарнітурою PICO та однією RTX 5090.
- Оцінка політики. Ви можете бенчмаркувати контрольну точку політики в DreamDojo замість реального світу. Симульовані показники успішності тісно корелюють із реальними результатами — достатньо точними, щоб ранжувати контрольні точки без жодного спалювання двигуна.
- Планування на основі моделей. Зразки кількох пропозицій дій → моделюйте їх усі паралельно → оберіть найкраще майбутнє. Отримує +17% реального успіху з коробки у завдання з пакування фруктів.
Ми відкриваємо все з кодом!! Ваги, код, набір даних після тренування, набір оцінки та аналітична книга з великою кількістю деталей для відтворення. DreamDojo базується на NVIDIA Cosmos, яка теж є відкритою.
2026 рік — рік світових моделей для фізичного ШІ. Ми хочемо, щоб ви будували разом з нами. Щасливого масштабування!
Посилання в темі:
Найкращі
Рейтинг
Вибране
