🦾Grande📷 étape pour la robotique open-source : pi0 et pi0.5 par @physical_int sont maintenant sur @huggingface, entièrement portés sur PyTorch dans @LeRobotHF et validés côte à côte avec OpenPI pour que tout le monde puisse expérimenter, affiner et déployer dans leurs robots ! Comme décrit par Physical Intelligence, π₀.₅ est un modèle Vision-Language-Action qui représente une évolution significative par rapport à π₀ pour relever un grand défi en robotique : la généralisation en monde ouvert. Alors que les robots peuvent réaliser des tâches impressionnantes dans des environnements contrôlés, π₀.₅ est conçu pour se généraliser à des environnements et des situations entièrement nouveaux qui n'ont jamais été vus pendant l'entraînement. La généralisation doit se produire à plusieurs niveaux : - Niveau Physique : Comprendre comment prendre une cuillère (par le manche) ou une assiette (par le bord), même avec des objets non vus dans des environnements encombrés - Niveau Sémantique : Comprendre la sémantique des tâches, où mettre les vêtements et les chaussures (panier à linge, pas sur le lit), et quels outils sont appropriés pour nettoyer les déversements - Niveau Environnemental : S'adapter à des environnements réels "en désordre" comme les maisons, les supermarchés, les bureaux et les hôpitaux L'innovation révolutionnaire dans π₀.₅ est l'entraînement conjoint sur des sources de données hétérogènes. Le modèle apprend à partir de : - Données Web Multimodales : Légendage d'images, questions visuelles, détection d'objets - Instructions Verbales : Des humains coachent les robots à travers des tâches complexes étape par étape - Commandes de Sous-tâches : Étiquettes de comportement sémantique de haut niveau (par exemple, "prends l'oreiller" pour un lit défait) - Données de Robot Croisé : Données provenant de diverses plateformes robotiques avec différentes capacités - Données Multi-Environnement : Robots statiques déployés dans de nombreux foyers différents - Données de Manipulation Mobile : ~400 heures de démonstrations de robots mobiles Ce mélange d'entraînement divers crée un "curriculum" qui permet la généralisation à travers les niveaux physique, visuel et sémantique simultanément. Un grand merci à l'équipe @physical_int et aux contributeurs Modèle : LeRobot: