一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

宣布 DreamDojo：我們的開源互動世界模型，能夠控制機器人馬達並生成未來的像素。沒有引擎，沒有網格，沒有手工編寫的動態。這是模擬 2.0。是時候讓機器人學習這個苦澀的教訓了。現實世界中的機器人學習受到時間、磨損、安全性和重置的瓶頸。如果我們希望物理 AI 以預訓練的速度運行，我們需要一個能夠適應預訓練規模的模擬器，並且人類工程的介入越少越好。我們的關鍵見解：（1）人類自我中心的視頻是可擴展的第一人稱物理來源；（2）潛在行動使其在不同硬體上變得「機器人可讀」；（3）實時推理解鎖了夢境中的即時遠程操作、策略評估和測試時規劃。我們在 44K 小時的人類視頻上進行預訓練：便宜、豐富，且在沒有機器人介入的情況下收集。人類已經探索了組合學：我們抓取、倒入、摺疊、組裝、失敗、重試——在雜亂的場景中、變化的視角、變化的光線和長達一小時的任務鏈中——以任何機器人艦隊無法匹敵的規模。缺失的部分：這些視頻沒有行動標籤。因此，我們引入了潛在行動：一種直接從視頻推斷的統一表示，捕捉「世界狀態之間發生了什麼變化」，而不需要知道底層硬體。這使我們能夠像對待附有馬達命令的視頻一樣，對任何第一人稱視頻進行訓練。因此，DreamDojo 能夠零樣本地推廣到任何在機器人訓練集中從未見過的物體和環境，因為人類首先看到了它們。接下來，我們對每個機器人進行後訓練，以適應其特定硬體。可以將其視為將「世界的外觀和行為」與「這個特定機器人的驅動方式」分開。基礎模型遵循一般的物理規則，然後「貼合」機器人的獨特機械。這有點像將新角色和場景資產加載到 Unreal Engine 中，但通過梯度下降完成，並且超越了後訓練數據集的範疇。一個世界模擬器只有在運行速度足夠快以關閉循環時才有用。我們訓練了一個以 10 FPS 運行的 DreamDojo 實時版本，穩定運行超過一分鐘的連續展開。這解鎖了令人興奮的可能性： - 在夢中進行即時遠程操作。連接 VR 控制器，將動作流入 DreamDojo，並實時遠程操作虛擬機器人。我們在 Unitree G1 上演示了這一點，使用 PICO 頭戴顯示器和一個 RTX 5090。 - 策略評估。您可以在 DreamDojo 中基準測試策略檢查點，而不是在現實世界中。模擬的成功率與現實世界的結果強烈相關——準確到足以在不燒毀任何馬達的情況下對檢查點進行排名。 - 基於模型的規劃。採樣多個行動提案 → 同時模擬所有行動 → 選擇最佳未來。在水果包裝任務中，現實世界的成功率提升了 17%。我們開源所有內容！！權重、代碼、後訓練數據集、評估集，以及包含大量細節的白皮書以便重現。DreamDojo 基於 NVIDIA Cosmos，這也是開源權重。 2026 年是物理 AI 的世界模型之年。我們希望您與我們一起構建。祝您擴展愉快！線索在主題中：