トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🦾オープンソースのロボット工学にとって大きな📷マイルストーン:@physical_intのpi0とpi0.5が@huggingfaceに登場し、@LeRobotHF年にPyTorchに完全に移植され、OpenPIと並行して検証され、誰もがロボットで実験、微調整、展開できるようになっています。
Physical Intelligence で説明されているように、π₀.₅ は視覚言語行動モデルであり、ロボット工学における大きな課題であるオープンワールドの一般化に対処するための π₀ からの大幅な進化を表しています。
ロボットは制御された環境で印象的なタスクを実行できますが、π₀.₅ は、トレーニング中に見られなかったまったく新しい環境や状況に一般化するように設計されています。
一般化は、複数のレベルで行う必要があります。
- 身体レベル: 雑然とした環境で目に見えない物体がある場合でも、スプーン (ハンドル) または皿 (端) の持ち方を理解する
- セマンティックレベル: タスクのセマンティクス、衣服や靴を置く場所 (ベッドではなく洗濯かご)、こぼれたものを掃除するのに適したツールを理解する
- 環境レベル: 家庭、食料品店、オフィス、病院などの「乱雑な」現実世界の環境に適応する
π₀.₅ の画期的なイノベーションは、異種データ ソースでの共同トレーニングです。モデルは以下から学習します。
- マルチモーダル Web データ: 画像キャプション、視覚的な質問応答、物体検出
- 口頭での指示: 人間が複雑なタスクを段階的にロボットに指導します
- サブタスク コマンド: 高レベルのセマンティック動作ラベル (例: 整えられていないベッドの「枕を拾う」)
- クロスボディディメントロボットデータ:さまざまな機能を持つさまざまなロボットプラットフォームからのデータ
- マルチ環境データ: さまざまな家庭に配備された静的ロボット
- モバイル操作データ:~400時間のモバイルロボットのデモンストレーション
この多様なトレーニングの組み合わせにより、物理的、視覚的、意味的レベルにわたって同時に一般化できる「カリキュラム」が作成されます。
@physical_intチームと貢献者に感謝します
モデル:
ルロボット:

トップ
ランキング
お気に入り