🦾Grande📷 traguardo per la robotica open-source: pi0 e pi0.5 di @physical_int sono ora su @huggingface, completamente portati su PyTorch in @LeRobotHF e convalidati fianco a fianco con OpenPI per permettere a tutti di sperimentare, ottimizzare e implementare nei propri robot! Come descritto da Physical Intelligence, π₀.₅ è un modello Vision-Language-Action che rappresenta una significativa evoluzione rispetto a π₀ per affrontare una grande sfida nella robotica: la generalizzazione in un mondo aperto. Mentre i robot possono eseguire compiti impressionanti in ambienti controllati, π₀.₅ è progettato per generalizzare a ambienti e situazioni completamente nuovi che non sono mai stati visti durante l'addestramento. La generalizzazione deve avvenire a più livelli: - Livello Fisico: Comprendere come raccogliere un cucchiaio (per il manico) o un piatto (per il bordo), anche con oggetti non visti in ambienti disordinati - Livello Semantico: Comprendere la semantica del compito, dove mettere vestiti e scarpe (cestino della biancheria, non sul letto), e quali strumenti sono appropriati per pulire le macchie - Livello Ambientale: Adattarsi a ambienti "disordinati" del mondo reale come case, negozi di alimentari, uffici e ospedali L'innovazione rivoluzionaria in π₀.₅ è l'addestramento congiunto su fonti di dati eterogenee. Il modello impara da: - Dati Web Multimodali: Didattica delle immagini, domande visive, rilevamento degli oggetti - Istruzioni Verbali: Umani che guidano i robot attraverso compiti complessi passo dopo passo - Comandi di Sottocompito: Etichette di comportamento semantico ad alto livello (ad es., "prendi il cuscino" per un letto sfatto) - Dati di Robot Cross-Embodiment: Dati provenienti da varie piattaforme robotiche con diverse capacità - Dati Multi-Ambiente: Robot statici distribuiti in molte case diverse - Dati di Manipolazione Mobile: ~400 ore di dimostrazioni di robot mobili Questa miscela di addestramento diversificata crea un "curriculum" che consente la generalizzazione attraverso livelli fisici, visivi e semantici simultaneamente. Un enorme grazie al team di @physical_int e ai collaboratori Modello: LeRobot: