🦾 Grande📷 marco para a robótica de código aberto: pi0 e pi0.5 da @physical_int estão agora no @huggingface, totalmente portados para PyTorch no @LeRobotHF e validados lado a lado com o OpenPI para que todos possam experimentar, ajustar e implementar em seus robôs! Como descrito pela Physical Intelligence, π₀.₅ é um modelo de Visão-Linguagem-Ação que representa uma evolução significativa de π₀ para enfrentar um grande desafio na robótica: a generalização em mundo aberto. Enquanto os robôs podem realizar tarefas impressionantes em ambientes controlados, π₀.₅ é projetado para generalizar para ambientes e situações totalmente novos que nunca foram vistos durante o treinamento. A generalização deve ocorrer em múltiplos níveis: - Nível Físico: Compreender como pegar uma colher (pelo cabo) ou um prato (pela borda), mesmo com objetos não vistos em ambientes desordenados - Nível Semântico: Compreender a semântica da tarefa, onde colocar roupas e sapatos (cesto de roupa, não na cama), e quais ferramentas são apropriadas para limpar derramamentos - Nível Ambiental: Adaptar-se a ambientes "bagunçados" do mundo real, como casas, supermercados, escritórios e hospitais A inovação revolucionária em π₀.₅ é o co-treinamento em fontes de dados heterogêneas. O modelo aprende com: - Dados Web Multimodais: Legendas de imagens, perguntas visuais, detecção de objetos - Instruções Verbais: Humanos orientando robôs através de tarefas complexas passo a passo - Comandos de Subtarefa: Rótulos de comportamento semântico de alto nível (por exemplo, "pegue o travesseiro" para uma cama desfeita) - Dados de Robô de Cruzamento de Corporeidade: Dados de várias plataformas robóticas com diferentes capacidades - Dados de Múltiplos Ambientes: Robôs estáticos implantados em muitas casas diferentes - Dados de Manipulação Móvel: ~400 horas de demonstrações de robôs móveis Essa mistura diversificada de treinamento cria um "currículo" que permite a generalização em níveis físicos, visuais e semânticos simultaneamente. Um enorme agradecimento à equipe da @physical_int e aos colaboradores Modelo: LeRobot: