🦾Grande📷 marco para a robótica de código aberto: pi0 e pi0.5 da @physical_int estão agora em @huggingface, totalmente portados para o PyTorch em @LeRobotHF e validados lado a lado com o OpenPI para que todos possam experimentar, ajustar e implantar em seus robôs! Conforme descrito pela Physical Intelligence, π₀.₅ é um modelo de Visão-Linguagem-Ação que representa uma evolução significativa do π₀ para enfrentar um grande desafio na robótica: a generalização do mundo aberto. Embora os robôs possam realizar tarefas impressionantes em ambientes controlados, π₀.₅ foi projetado para generalizar para ambientes e situações totalmente novos que nunca foram vistos durante o treinamento. A generalização deve ocorrer em vários níveis: - Nível físico: Entender como pegar uma colher (pelo cabo) ou prato (pela borda), mesmo com objetos invisíveis em ambientes desordenados - Nível semântico: Compreender a semântica da tarefa, onde colocar roupas e sapatos (cesto de roupa suja, não na cama) e quais ferramentas são apropriadas para limpar derramamentos - Nível ambiental: Adaptar-se a ambientes "bagunçados" do mundo real, como residências, mercearias, escritórios e hospitais A inovação revolucionária em π₀.₅ é o co-treinamento em fontes de dados heterogêneas. O modelo aprende com: - Dados da Web multimodais: legendagem de imagens, resposta visual a perguntas, detecção de objetos - Instruções verbais: humanos treinando robôs através de tarefas complexas passo a passo - Comandos de subtarefa: rótulos de comportamento semântico de alto nível (por exemplo, "pegar o travesseiro" para uma cama desarrumada) - Dados de robôs de incorporação cruzada: dados de várias plataformas de robôs com diferentes recursos - Dados de vários ambientes: robôs estáticos implantados em muitas casas diferentes - Dados de manipulação móvel: ~ 400 horas de demonstrações de robôs móveis Essa mistura diversificada de treinamento cria um "currículo" que permite a generalização nos níveis físico, visual e semântico simultaneamente. Muito obrigado à equipe @physical_int e colaboradores Modelo: LeRobot: