Експортний контроль має величезний вплив, особливо для моделей на основі MLA.
Візьмемо K2/2.5 як приклад: він уже зменшив num_heads до 64, але інтенсивність обчислень для FP8 KVCache все ще ≈2×2×64=256FLOP/байт.
H20 має лише 148TFLOPS BF16 обчислення.
Максимальна пропускна здатність становить лише 592 ГБ/с.
Ми навчили гуманоїда з 22-DoF, вправними руками, збирати моделі автомобілів, керувати шприцами, сортувати покерні карти, складати/скручувати футболки — усе це навчилося переважно з 20 000+ годин егоцентричного людського відео без робота в процесі.
Люди — це наймасштабованіше втілення на планеті. Ми виявили майже ідеальний лог-лінійний закон масштабування (R² = 0,998) між об'ємом людського відео та втратами при прогнозуванні дії, і ця втрата безпосередньо передбачає успішність реальних роботів.
Гуманоїдні роботи стануть кінцевою метою, адже вони є практичним форм-фактором з мінімальним розривом у втіленні від людей. Назвімо це гірким уроком апаратного забезпечення: кінематична схожість дозволяє нам просто перенаправляти рух пальців людини на спритні суглоби роботизованої руки. Жодних навчених вкладень, жодних складних алгоритмів передачі. Відносний рух зап'ястя + перенацілені дії пальців 22-DoF слугують єдиним простором дій, що переходить від попереднього тренування до виконання робота.
Наш рецепт називається «EgoScale»:
- Попереднє навчання GR00T N1.5 на 20 тисячах годин людського відео, посеред поїзда з лише 4 годинами (!) даних робота з руками Sharpa. 54% приріст порівняно з навчанням з нуля у п'яти дуже спритних завданнях.
- Найдивовижніший результат: *одна* демонстрація телеопу достатня, щоб вивчити раніше не бачене завдання. Наш рецепт забезпечує надзвичайну ефективність даних.
- Хоча ми попередньо навчаємося у просторі суглобів рук 22-DoF, політика переноситься на Unitree G1 з трипальцями 7-DoF. 30%+ приріст порівняно з тренуванням лише на основі даних G1.
Масштабований шлях до спритності роботів ніколи не був роботами. Завжди були ми.
Детальний аналіз у темі: