Ankündigung von DreamDojo: unser Open-Source, interaktives Weltmodell, das die Motorsteuerungen von Robotern übernimmt und die Zukunft in Pixeln generiert. Keine Engine, keine Meshes, keine handgeschriebenen Dynamiken. Es ist Simulation 2.0. Zeit für die Robotik, die bittere Lektion zu lernen. Das Lernen von Robotern in der realen Welt ist durch Zeit, Abnutzung, Sicherheit und Rücksetzungen eingeschränkt. Wenn wir wollen, dass Physische KI mit der Geschwindigkeit des Vortrainings arbeitet, benötigen wir einen Simulator, der sich an den Vortrainingsmaßstab anpasst, mit so wenig menschlicher Ingenieurskunst wie möglich. Unsere wichtigsten Erkenntnisse: (1) menschliche egozentrische Videos sind eine skalierbare Quelle für physikalische Erlebnisse aus der Ich-Perspektive; (2) latente Aktionen machen sie "roboterlesbar" über verschiedene Hardware hinweg; (3) Echtzeitinferenz ermöglicht Live-Teleoperation, Politikevaluierung und Planung zur Testzeit *innerhalb* eines Traums. Wir trainieren vor mit 44K Stunden menschlicher Videos: günstig, reichlich und ohne Roboter im Loop gesammelt. Menschen haben bereits die Kombinatorik erkundet: wir greifen zu, gießen, falten, montieren, scheitern, versuchen es erneut – über unordentliche Szenen, wechselnde Blickwinkel, sich änderndes Licht und stundenlange Aufgabenketten – in einem Maßstab, den keine Robotersflotte erreichen könnte. Das fehlende Puzzlestück: Diese Videos haben keine Aktionsbeschriftungen. Daher führen wir latente Aktionen ein: eine einheitliche Darstellung, die direkt aus Videos abgeleitet wird und erfasst, "was sich zwischen den Weltzuständen geändert hat", ohne die zugrunde liegende Hardware zu kennen. Dies ermöglicht es uns, mit jedem Video aus der Ich-Perspektive zu trainieren, als ob es mit Motorbefehlen verbunden wäre. Infolgedessen generalisiert DreamDojo null-shot auf Objekte und Umgebungen, die in keinem Roboterschulungsset gesehen wurden, weil Menschen sie zuerst gesehen haben. Als Nächstes trainieren wir auf jeden Roboter, um seine spezifische Hardware anzupassen. Denken Sie daran, es als Trennung von "wie die Welt aussieht und sich verhält" und "wie dieser spezielle Roboter agiert". Das Basismodell folgt den allgemeinen physikalischen Regeln und "snappt" dann auf die einzigartigen Mechaniken des Roboters. Es ist ein bisschen so, als würde man einen neuen Charakter und Szenenassets in die Unreal Engine laden, aber es geschieht durch Gradientenabstieg und generalisiert weit über den Post-Training-Datensatz hinaus. Ein Weltsimulator ist nur nützlich, wenn er schnell genug läuft, um den Kreislauf zu schließen. Wir trainieren eine Echtzeitversion von DreamDojo, die mit 10 FPS läuft, stabil für über eine Minute kontinuierlicher Ausführung. Dies eröffnet aufregende Möglichkeiten: - Live-Teleoperation *innerhalb* eines Traums. Verbinden Sie einen VR-Controller, streamen Sie Aktionen in DreamDojo und steuern Sie einen virtuellen Roboter in Echtzeit. Wir demonstrieren dies auf dem Unitree G1 mit einem PICO-Headset und einer RTX 5090. - Politikevaluierung. Sie können einen Politik-Checkpoint in DreamDojo benchmarken, anstatt in der realen Welt. Die simulierten Erfolgsraten korrelieren stark mit den Ergebnissen der realen Welt - genau genug, um Checkpoints zu bewerten, ohne einen einzigen Motor zu verbrennen. - Modellbasiertes Planen. Mehrere Aktionsvorschläge erstellen → alle parallel simulieren → die beste Zukunft auswählen. Gewinne +17% Erfolg in der realen Welt direkt nach dem Auspacken bei einer Obstverpackungsaufgabe. Wir machen alles Open Source!! Gewichte, Code, Post-Training-Datensatz, Evaluierungsset und Whitepaper mit vielen Details zur Reproduktion. DreamDojo basiert auf NVIDIA Cosmos, das ebenfalls Open-Weight ist. 2026 ist das Jahr der Weltmodelle für physische KI. Wir möchten, dass Sie mit uns bauen. Viel Spaß beim Skalieren! Links im Thread: