宣布 DreamDojo:我們的開源互動世界模型,能夠控制機器人馬達並生成未來的像素。沒有引擎,沒有網格,沒有手工編寫的動態。這是模擬 2.0。是時候讓機器人學習這個苦澀的教訓了。 現實世界中的機器人學習受到時間、磨損、安全性和重置的瓶頸。如果我們希望物理 AI 以預訓練的速度運行,我們需要一個能夠適應預訓練規模的模擬器,並且人類工程的介入越少越好。 我們的關鍵見解:(1)人類自我中心的視頻是可擴展的第一人稱物理來源;(2)潛在行動使其在不同硬體上變得「機器人可讀」;(3)實時推理解鎖了夢境中的即時遠程操作、策略評估和測試時規劃。 我們在 44K 小時的人類視頻上進行預訓練:便宜、豐富,且在沒有機器人介入的情況下收集。人類已經探索了組合學:我們抓取、倒入、摺疊、組裝、失敗、重試——在雜亂的場景中、變化的視角、變化的光線和長達一小時的任務鏈中——以任何機器人艦隊無法匹敵的規模。缺失的部分:這些視頻沒有行動標籤。因此,我們引入了潛在行動:一種直接從視頻推斷的統一表示,捕捉「世界狀態之間發生了什麼變化」,而不需要知道底層硬體。這使我們能夠像對待附有馬達命令的視頻一樣,對任何第一人稱視頻進行訓練。 因此,DreamDojo 能夠零樣本地推廣到任何在機器人訓練集中從未見過的物體和環境,因為人類首先看到了它們。 接下來,我們對每個機器人進行後訓練,以適應其特定硬體。可以將其視為將「世界的外觀和行為」與「這個特定機器人的驅動方式」分開。基礎模型遵循一般的物理規則,然後「貼合」機器人的獨特機械。這有點像將新角色和場景資產加載到 Unreal Engine 中,但通過梯度下降完成,並且超越了後訓練數據集的範疇。 一個世界模擬器只有在運行速度足夠快以關閉循環時才有用。我們訓練了一個以 10 FPS 運行的 DreamDojo 實時版本,穩定運行超過一分鐘的連續展開。這解鎖了令人興奮的可能性: - 在夢中進行即時遠程操作。連接 VR 控制器,將動作流入 DreamDojo,並實時遠程操作虛擬機器人。我們在 Unitree G1 上演示了這一點,使用 PICO 頭戴顯示器和一個 RTX 5090。 - 策略評估。您可以在 DreamDojo 中基準測試策略檢查點,而不是在現實世界中。模擬的成功率與現實世界的結果強烈相關——準確到足以在不燒毀任何馬達的情況下對檢查點進行排名。 - 基於模型的規劃。採樣多個行動提案 → 同時模擬所有行動 → 選擇最佳未來。在水果包裝任務中,現實世界的成功率提升了 17%。 我們開源所有內容!!權重、代碼、後訓練數據集、評估集,以及包含大量細節的白皮書以便重現。DreamDojo 基於 NVIDIA Cosmos,這也是開源權重。 2026 年是物理 AI 的世界模型之年。我們希望您與我們一起構建。祝您擴展愉快! 線索在主題中: