Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🦾Велика📷 віха для робототехніки з відкритим вихідним кодом: pi0 і pi0.5 від @physical_int тепер на @huggingface, повністю портовані на PyTorch в @LeRobotHF році і перевірені пліч-о-пліч з OpenPI, щоб кожен міг експериментувати, допрацьовувати і розгортати в своїх роботах!
Як описано в Physical Intelligence, π₀.₅ – це модель «Бачення-Мова-Дія», яка представляє значну еволюцію від π до вирішення великої проблеми в робототехніці: узагальнення відкритого світу.
У той час як роботи можуть виконувати вражаючі завдання в контрольованих середовищах, π ₀.₅ призначений для узагальнення до абсолютно нових середовищ і ситуацій, які ніколи не були помічені під час тренувань.
Узагальнення має відбуватися на кількох рівнях:
- Фізичний рівень: розуміння того, як брати ложку (за ручку) або тарілку (за край), навіть з невидимими предметами в захаращеному середовищі
- Семантичний рівень: розуміння семантики завдань, куди покласти одяг та взуття (кошик для білизни, а не на ліжко) та які інструменти підходять для прибирання розлитих рідин
- Рівень навколишнього середовища: адаптація до «брудних» реальних середовищ, таких як будинки, продуктові магазини, офіси та лікарні
Проривною інновацією в π₀.₅ є спільне навчання на різнорідних джерелах даних. Модель навчається від:
- Мультимодальні веб-дані: підписи до зображень, візуальні відповіді на запитання, виявлення об'єктів
- Вербальні інструкції: люди крок за кроком тренують роботів у складних завданнях
- Команди підзавдань: Мітки семантичної поведінки високого рівня (наприклад, «забрати подушку» для незастеленого ліжка)
- Cross-Embodiment Robot Data: дані з різних платформ роботів з різними можливостями
- Дані про кілька середовищ: статичні роботи, розгорнуті в багатьох різних будинках
- Дані маніпуляцій з мобільними пристроями: ~400 годин демонстрацій мобільних роботів
Ця різноманітна навчальна суміш створює «навчальну програму», яка дозволяє узагальнювати на фізичному, візуальному та семантичному рівнях одночасно.
Величезне спасибі команді @physical_int та учасникам
Модель:
LeRobot:

Найкращі
Рейтинг
Вибране