Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🦾Wielki📷 kamień milowy dla robotyki open-source: pi0 i pi0.5 od @physical_int są teraz na @huggingface, w pełni przeniesione do PyTorch w @LeRobotHF i zweryfikowane obok OpenPI, aby każdy mógł eksperymentować, dostosowywać i wdrażać w swoich robotach!
Jak opisuje Physical Intelligence, π₀.₅ to model Wizja-Język-Działanie, który stanowi znaczną ewolucję od π₀, aby sprostać dużemu wyzwaniu w robotyce: generalizacji w otwartym świecie.
Podczas gdy roboty mogą wykonywać imponujące zadania w kontrolowanych środowiskach, π₀.₅ jest zaprojektowane do generalizacji w zupełnie nowych środowiskach i sytuacjach, które nigdy nie były widziane podczas treningu.
Generalizacja musi zachodzić na wielu poziomach:
- Poziom Fizyczny: Zrozumienie, jak podnieść łyżkę (za uchwyt) lub talerz (za brzeg), nawet z niewidocznymi obiektami w zagraconych środowiskach
- Poziom Semantyczny: Zrozumienie semantyki zadania, gdzie umieścić ubrania i buty (kosz na pranie, a nie na łóżku) oraz jakie narzędzia są odpowiednie do sprzątania plam
- Poziom Środowiskowy: Dostosowanie się do "bałaganów" w rzeczywistych środowiskach, takich jak domy, sklepy spożywcze, biura i szpitale
Przełomowa innowacja w π₀.₅ polega na współtreningu na heterogenicznych źródłach danych. Model uczy się z:
- Danych Multimodalnych z Sieci: Opisywanie obrazów, odpowiadanie na pytania wizualne, wykrywanie obiektów
- Instrukcji Werbalnych: Ludzie prowadzą roboty przez złożone zadania krok po kroku
- Komend Podzadań: Etykiety zachowań semantycznych na wysokim poziomie (np. "podnieś poduszkę" dla niepościelonego łóżka)
- Danych Robotów z Różnych Ciał: Dane z różnych platform robotycznych o różnych możliwościach
- Danych z Wielu Środowisk: Statyczne roboty wdrożone w wielu różnych domach
- Danych z Manipulacji Mobilnej: ~400 godzin demonstracji robotów mobilnych
Ta różnorodna mieszanka treningowa tworzy "program nauczania", który umożliwia generalizację na poziomach fizycznym, wizualnym i semantycznym jednocześnie.
Ogromne podziękowania dla zespołu @physical_int i współpracowników
Model:
LeRobot:

Najlepsze
Ranking
Ulubione