熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
🦾開源機器人領域的一個重大📷里程碑:@physical_int 的 pi0 和 pi0.5 現已在 @huggingface 上,完全移植到 PyTorch 中,並與 OpenPI 進行了並行驗證,供大家實驗、微調和部署到他們的機器人中!
正如 Physical Intelligence 所描述的,π₀.₅ 是一個視覺-語言-行動模型,代表了從 π₀ 到 π₀.₅ 的重大演變,旨在解決機器人學中的一個重大挑戰:開放世界泛化。
雖然機器人在受控環境中可以執行令人印象深刻的任務,但 π₀.₅ 的設計是為了能夠泛化到完全新的環境和情況,這些在訓練期間從未見過。
泛化必須在多個層面上發生:
- 物理層面:理解如何拿起湯匙(從把手)或盤子(從邊緣),即使在雜亂的環境中面對未見過的物體
- 語義層面:理解任務語義,知道將衣物和鞋子放在哪裡(洗衣籃,而不是床上),以及哪些工具適合清理溢出物
- 環境層面:適應“雜亂”的現實世界環境,如家庭、雜貨店、辦公室和醫院
π₀.₅ 的突破性創新在於對異質數據源的共同訓練。該模型從以下方面學習:
- 多模態網絡數據:圖像標題生成、視覺問答、物體檢測
- 口頭指令:人類逐步指導機器人完成複雜任務
- 子任務命令:高層次語義行為標籤(例如,“拿起枕頭”對於未整理的床)
- 跨體現機器人數據:來自不同能力的各種機器人平台的數據
- 多環境數據:靜態機器人在許多不同的家庭中部署
- 移動操作數據:約 400 小時的移動機器人演示
這種多樣化的訓練混合創造了一個“課程”,使得在物理、視覺和語義層面上同時實現泛化。
非常感謝 @physical_int 團隊及貢獻者
模型:
LeRobot:

熱門
排行
收藏