🦾Stor📷 milepæl for åpen kildekode-robotikk: pi0 og pi0.5 av @physical_int er nå på @huggingface, fullstendig portert til PyTorch i @LeRobotHF og validert side om side med OpenPI slik at alle kan eksperimentere med, finjustere og distribuere i robotene sine! Som beskrevet av Physical Intelligence, er π₀.₅ en Vision-Language-Action-modell som representerer en betydelig utvikling fra π₀ for å løse en stor utfordring innen robotikk: generalisering av åpen verden. Mens roboter kan utføre imponerende oppgaver i kontrollerte miljøer, er π₀.₅ designet for å generalisere til helt nye miljøer og situasjoner som aldri ble sett under trening. Generalisering må skje på flere nivåer: - Fysisk nivå: Forstå hvordan du plukker opp en skje (ved håndtaket) eller tallerken (ved kanten), selv med usynlige gjenstander i rotete omgivelser - Semantisk nivå: Forstå oppgavesemantikk, hvor du skal legge klær og sko (klesvask, ikke på sengen), og hvilke verktøy som er egnet for å rense søl - Miljønivå: Tilpasning til "rotete" virkelige miljøer som hjem, dagligvarebutikker, kontorer og sykehus Den banebrytende innovasjonen i π₀.₅ er samtrening på heterogene datakilder. Modellen lærer av: - Multimodale nettdata: bildeteksting, visuell spørsmålsbesvarelse, objektdeteksjon - Verbale instruksjoner: Mennesker trener roboter gjennom komplekse oppgaver trinn for trinn - Deloppgavekommandoer: Semantiske atferdsetiketter på høyt nivå (f.eks. "plukk opp puten" for en uoppredd seng) - Cross-Embodiment Robot Data: Data fra ulike robotplattformer med forskjellige muligheter - Multimiljødata: Statiske roboter utplassert i mange forskjellige hjem - Mobile manipulasjonsdata: ~400 timer med mobile robotdemonstrasjoner Denne mangfoldige treningsblandingen skaper en "læreplan" som muliggjør generalisering på tvers av fysiske, visuelle og semantiske nivåer samtidig. Stor takk til det @physical_int teamet og bidragsyterne Modell: LeRobot: