Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🦾 Großartiger📷 Meilenstein für Open-Source-Robotik: pi0 & pi0.5 von @physical_int sind jetzt auf @huggingface, vollständig auf PyTorch in @LeRobotHF portiert und nebeneinander mit OpenPI validiert, damit jeder damit experimentieren, anpassen und in seinen Robotern einsetzen kann!
Wie von Physical Intelligence beschrieben, ist π₀.₅ ein Vision-Language-Action-Modell, das eine bedeutende Evolution von π₀ darstellt, um eine große Herausforderung in der Robotik anzugehen: die Generalisierung in offenen Welten.
Während Roboter beeindruckende Aufgaben in kontrollierten Umgebungen ausführen können, ist π₀.₅ darauf ausgelegt, sich auf völlig neue Umgebungen und Situationen zu verallgemeinern, die während des Trainings nie gesehen wurden.
Die Generalisierung muss auf mehreren Ebenen erfolgen:
- Physische Ebene: Verstehen, wie man einen Löffel (am Griff) oder einen Teller (am Rand) aufnimmt, selbst mit unbekannten Objekten in unordentlichen Umgebungen
- Semantische Ebene: Verstehen der Aufgaben-Semantik, wo man Kleidung und Schuhe ablegt (Wäschekorb, nicht auf dem Bett) und welche Werkzeuge zum Reinigen von Verschüttungen geeignet sind
- Umwelt-Ebene: Anpassung an "unordentliche" reale Umgebungen wie Wohnungen, Lebensmittelgeschäfte, Büros und Krankenhäuser
Die bahnbrechende Innovation in π₀.₅ ist das Co-Training auf heterogenen Datenquellen. Das Modell lernt von:
- Multimodalen Webdaten: Bildunterschriftenerstellung, visuelle Fragenbeantwortung, Objekterkennung
- Verbalen Anweisungen: Menschen, die Roboter Schritt für Schritt durch komplexe Aufgaben anleiten
- Unteraufgaben-Befehlen: Hochgradige semantische Verhaltenslabels (z. B. "hebe das Kissen auf" für ein ungemachtes Bett)
- Cross-Embodiment-Roboterdaten: Daten von verschiedenen Robotplattformen mit unterschiedlichen Fähigkeiten
- Multi-Umgebungsdaten: Statische Roboter, die in vielen verschiedenen Haushalten eingesetzt werden
- Mobile Manipulationsdaten: ~400 Stunden mobile Roboter-Demonstrationen
Diese vielfältige Trainingsmischung schafft einen "Lehrplan", der die Generalisierung über physische, visuelle und semantische Ebenen gleichzeitig ermöglicht.
Ein riesiges Dankeschön an das Team von @physical_int und die Mitwirkenden
Modell:
LeRobot:

Top
Ranking
Favoriten