Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Directeur de la robotique de NVIDIA et scientifique émérite. Co-responsable du laboratoire GEAR. Résoudre l’IAG physique, un moteur à la fois. Stanford Ph.D. 1er stagiaire d’OpenAI.
Nous avons entraîné un humanoïde avec des mains agiles à 22 degrés de liberté pour assembler des modèles de voitures, manipuler des seringues, trier des cartes de poker, plier/rouler des chemises, le tout appris principalement à partir de plus de 20 000 heures de vidéos humaines égocentriques sans robot dans la boucle.
Les humains sont l'incarnation la plus évolutive sur la planète. Nous avons découvert une loi de mise à l'échelle log-linéaire presque parfaite (R² = 0,998) entre le volume de vidéos humaines et la perte de prédiction d'action, et cette perte prédit directement le taux de succès des robots réels.
Les robots humanoïdes seront le but ultime, car ils représentent le facteur de forme pratique avec un écart d'incarnation minimal par rapport aux humains. Appelez cela la leçon amère du matériel robotique : la similarité cinématique nous permet de simplement rediriger le mouvement des doigts humains vers les articulations des mains agiles des robots. Pas d'embeddings appris, pas d'algorithmes de transfert sophistiqués nécessaires. Le mouvement relatif du poignet + les actions de doigts à 22 degrés de liberté redirigées servent d'espace d'action unifié qui se prolonge de la pré-formation à l'exécution robotique.
Notre recette s'appelle "EgoScale" :
- Pré-entraîner GR00T N1.5 sur 20K heures de vidéos humaines, mi-formation avec seulement 4 heures (!) de données de jeu robotique avec des mains Sharpa. 54 % de gains par rapport à un entraînement à partir de zéro sur 5 tâches hautement agiles.
- Résultat le plus surprenant : une *unique* démonstration de téléopération est suffisante pour apprendre une tâche jamais vue auparavant. Notre recette permet une efficacité extrême des données.
- Bien que nous pré-entrions dans l'espace des articulations de la main à 22 degrés de liberté, la politique se transfère à un Unitree G1 avec des mains à 7 degrés de liberté. Plus de 30 % de gains par rapport à un entraînement uniquement sur les données G1.
Le chemin évolutif vers la dextérité robotique n'a jamais été plus de robots. Cela a toujours été nous.
Plongées approfondies dans le fil :
189
Annonce de DreamDojo : notre modèle de monde interactif open-source qui prend les contrôles moteurs des robots et génère l'avenir en pixels. Pas de moteur, pas de maillages, pas de dynamiques écrites à la main. C'est la Simulation 2.0. Il est temps que la robotique prenne la pilule amère de la leçon.
L'apprentissage des robots dans le monde réel est limité par le temps, l'usure, la sécurité et les réinitialisations. Si nous voulons que l'IA Physique avance à la vitesse de pré-entraînement, nous avons besoin d'un simulateur qui s'adapte à l'échelle de pré-entraînement avec le moins d'ingénierie humaine possible.
Nos principales idées : (1) les vidéos humaines égocentriques sont une source évolutive de physique à la première personne ; (2) les actions latentes les rendent "lisibles par les robots" sur différents matériels ; (3) l'inférence en temps réel débloque la téléopération en direct, l'évaluation des politiques et la planification au moment du test *dans* un rêve.
Nous pré-entraînons sur 44K heures de vidéos humaines : bon marché, abondantes et collectées sans aucun robot dans la boucle. Les humains ont déjà exploré les combinaisons : nous saisissons, versons, plions, assemblons, échouons, réessayons—à travers des scènes encombrées, des points de vue changeants, une lumière variable et des chaînes de tâches d'une heure—à une échelle qu'aucune flotte de robots ne pourrait égaler. La pièce manquante : ces vidéos n'ont pas d'étiquettes d'action. Nous introduisons donc des actions latentes : une représentation unifiée inférée directement des vidéos qui capture "ce qui a changé entre les états du monde" sans connaître le matériel sous-jacent. Cela nous permet de nous entraîner sur n'importe quelle vidéo à la première personne comme si elle était accompagnée de commandes moteur.
En conséquence, DreamDojo généralise en zéro-shot à des objets et des environnements jamais vus dans aucun ensemble d'entraînement de robots, car les humains les ont vus en premier.
Ensuite, nous post-entraînons chaque robot pour l'adapter à son matériel spécifique. Pensez-y comme à la séparation de "comment le monde apparaît et se comporte" de "comment ce robot particulier s'active." Le modèle de base suit les règles physiques générales, puis "s'adapte" à la mécanique unique du robot. C'est un peu comme charger un nouveau personnage et des actifs de scène dans Unreal Engine, mais fait par descente de gradient et généralise bien au-delà de l'ensemble de données de post-entraînement.
Un simulateur de monde n'est utile que s'il fonctionne assez rapidement pour fermer la boucle. Nous entraînons une version en temps réel de DreamDojo qui fonctionne à 10 FPS, stable pendant plus d'une minute de déploiement continu. Cela débloque des possibilités passionnantes :
- Téléopération en direct *dans* un rêve. Connectez un contrôleur VR, diffusez des actions dans DreamDojo et téléopérez un robot virtuel en temps réel. Nous le démontrons sur l'Unitree G1 avec un casque PICO et une RTX 5090.
- Évaluation des politiques. Vous pouvez évaluer un point de contrôle de politique dans DreamDojo au lieu du monde réel. Les taux de succès simulés sont fortement corrélés avec les résultats du monde réel - suffisamment précis pour classer les points de contrôle sans brûler un seul moteur.
- Planification basée sur des modèles. Échantillonnez plusieurs propositions d'action → simulez-les toutes en parallèle → choisissez le meilleur avenir. Gains de +17 % de succès dans le monde réel dès le départ sur une tâche de conditionnement de fruits.
Nous open-source tout !! Poids, code, ensemble de données de post-entraînement, ensemble d'évaluation et livre blanc avec des tonnes de détails pour reproduire. DreamDojo est basé sur NVIDIA Cosmos, qui est également open-weight.
2026 est l'année des Modèles de Monde pour l'IA physique. Nous voulons que vous construisiez avec nous. Bon scaling !
Liens dans le fil :
366
Meilleurs
Classement
Favoris

