🦾En stor📷 milstolpe för robotteknik med öppen källkod: pi0 och pi0.5 @physical_int finns nu på @huggingface, helt porterade till PyTorch i @LeRobotHF och validerade sida vid sida med OpenPI så att alla kan experimentera med, finjustera och distribuera i sina robotar! Som beskrivits av Physical Intelligence är π₀.₅ en Vision-Language-Action-modell som representerar en betydande utveckling från π₀ för att ta itu med en stor utmaning inom robotik: generalisering av en öppen värld. Medan robotar kan utföra imponerande uppgifter i kontrollerade miljöer, är π₀.₅ utformat för att generalisera till helt nya miljöer och situationer som aldrig sågs under träningen. Generalisering måste ske på flera nivåer: - Fysisk nivå: Förstå hur man plockar upp en sked (i handtaget) eller tallriken (i kanten), även med osynliga föremål i röriga miljöer - Semantisk nivå: Förstå uppgiftssemantik, var man ska lägga kläder och skor (tvättkorg, inte på sängen) och vilka verktyg som är lämpliga för att rengöra spill - Miljönivå: Anpassning till "röriga" verkliga miljöer som hem, livsmedelsbutiker, kontor och sjukhus Den banbrytande innovationen i π₀.₅ är samträning på heterogena datakällor. Modellen lär sig av: - Multimodala webbdata: Bildtextning, svar på visuella frågor, objektdetektering - Verbala instruktioner: Människor coachar robotar genom komplexa uppgifter steg för steg - Underuppgiftskommandon: Etiketter för semantiskt beteende på hög nivå (t.ex. "plocka upp kudden" för en obäddad säng) - Cross-Embodiment Robot Data: Data från olika robotplattformar med olika funktioner - Data för flera miljöer: Statiska robotar som används i många olika hem - Mobil manipulationsdata: ~400 timmars demonstrationer av mobila robotar Denna mångsidiga träningsblandning skapar en "läroplan" som möjliggör generalisering över fysiska, visuella och semantiska nivåer samtidigt. Stort tack till det @physical_int teamet och bidragsgivarna Modell: LeRobot: