Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
NVIDIA-Direktor für Robotik und angesehener Wissenschaftler. Co-Leiter des GEAR-Labors. Physikalische AGI lösen, ein Motor nach dem anderen. Stanford Ph.D. Der 1. Praktikant von OpenAI.
Wir haben einen humanoiden Roboter mit 22-DoF geschickten Händen trainiert, um Modellautos zusammenzubauen, Spritzen zu bedienen, Pokerkarten zu sortieren und Hemden zu falten/rollen, alles hauptsächlich gelernt aus über 20.000 Stunden egozentrischem menschlichen Video ohne Roboter im Loop.
Menschen sind die am meisten skalierbare Verkörperung auf dem Planeten. Wir haben ein nahezu perfektes log-lineares Skalierungsgesetz (R² = 0,998) zwischen dem Volumen menschlicher Videos und dem Verlust bei der Aktionsvorhersage entdeckt, und dieser Verlust sagt direkt die Erfolgsquote von echten Robotern voraus.
Humanoide Roboter werden das Endspiel sein, weil sie die praktische Formfaktor mit minimaler Verkörperungslücke zu Menschen sind. Nennen Sie es die bittere Lektion der Roboterhardware: die kinematische Ähnlichkeit ermöglicht es uns, menschliche Fingerbewegungen einfach auf die Gelenke geschickter Roboterhände neu zu zielen. Keine gelernten Einbettungen, keine ausgeklügelten Transferalgorithmen nötig. Relative Handgelenksbewegung + neu gezielte 22-DoF Fingeraktionen dienen als ein einheitlicher Aktionsraum, der vom Pre-Training bis zur Roboterausführung durchgeht.
Unser Rezept heißt "EgoScale":
- Vortraining von GR00T N1.5 auf 20K Stunden menschlichem Video, Mid-Training nur mit 4 Stunden (!) Roboter-Spiel-Daten mit Sharpa-Händen. 54% Gewinn gegenüber dem Training von Grund auf über 5 hochgeschickte Aufgaben.
- Das überraschendste Ergebnis: eine *einzige* Teleop-Demo reicht aus, um eine noch nie zuvor gesehene Aufgabe zu lernen. Unser Rezept ermöglicht extreme Dateneffizienz.
- Obwohl wir im 22-DoF Handgelenkraum vortrainieren, überträgt sich die Politik auf einen Unitree G1 mit 7-DoF Tri-Finger-Händen. Über 30% Gewinn gegenüber dem Training nur mit G1-Daten.
Der skalierbare Weg zur Robotergeschicklichkeit war nie mehr Roboter. Es war immer wir.
Tiefgehende Diskussionen im Thread:
199
Ankündigung von DreamDojo: unser Open-Source, interaktives Weltmodell, das die Motorsteuerungen von Robotern übernimmt und die Zukunft in Pixeln generiert. Keine Engine, keine Meshes, keine handgeschriebenen Dynamiken. Es ist Simulation 2.0. Zeit für die Robotik, die bittere Lektion zu lernen.
Das Lernen von Robotern in der realen Welt ist durch Zeit, Abnutzung, Sicherheit und Rücksetzungen eingeschränkt. Wenn wir wollen, dass Physische KI mit der Geschwindigkeit des Vortrainings arbeitet, benötigen wir einen Simulator, der sich an den Vortrainingsmaßstab anpasst, mit so wenig menschlicher Ingenieurskunst wie möglich.
Unsere wichtigsten Erkenntnisse: (1) menschliche egozentrische Videos sind eine skalierbare Quelle für physikalische Erlebnisse aus der Ich-Perspektive; (2) latente Aktionen machen sie "roboterlesbar" über verschiedene Hardware hinweg; (3) Echtzeitinferenz ermöglicht Live-Teleoperation, Politikevaluierung und Planung zur Testzeit *innerhalb* eines Traums.
Wir trainieren vor mit 44K Stunden menschlicher Videos: günstig, reichlich und ohne Roboter im Loop gesammelt. Menschen haben bereits die Kombinatorik erkundet: wir greifen zu, gießen, falten, montieren, scheitern, versuchen es erneut – über unordentliche Szenen, wechselnde Blickwinkel, sich änderndes Licht und stundenlange Aufgabenketten – in einem Maßstab, den keine Robotersflotte erreichen könnte. Das fehlende Puzzlestück: Diese Videos haben keine Aktionsbeschriftungen. Daher führen wir latente Aktionen ein: eine einheitliche Darstellung, die direkt aus Videos abgeleitet wird und erfasst, "was sich zwischen den Weltzuständen geändert hat", ohne die zugrunde liegende Hardware zu kennen. Dies ermöglicht es uns, mit jedem Video aus der Ich-Perspektive zu trainieren, als ob es mit Motorbefehlen verbunden wäre.
Infolgedessen generalisiert DreamDojo null-shot auf Objekte und Umgebungen, die in keinem Roboterschulungsset gesehen wurden, weil Menschen sie zuerst gesehen haben.
Als Nächstes trainieren wir auf jeden Roboter, um seine spezifische Hardware anzupassen. Denken Sie daran, es als Trennung von "wie die Welt aussieht und sich verhält" und "wie dieser spezielle Roboter agiert". Das Basismodell folgt den allgemeinen physikalischen Regeln und "snappt" dann auf die einzigartigen Mechaniken des Roboters. Es ist ein bisschen so, als würde man einen neuen Charakter und Szenenassets in die Unreal Engine laden, aber es geschieht durch Gradientenabstieg und generalisiert weit über den Post-Training-Datensatz hinaus.
Ein Weltsimulator ist nur nützlich, wenn er schnell genug läuft, um den Kreislauf zu schließen. Wir trainieren eine Echtzeitversion von DreamDojo, die mit 10 FPS läuft, stabil für über eine Minute kontinuierlicher Ausführung. Dies eröffnet aufregende Möglichkeiten:
- Live-Teleoperation *innerhalb* eines Traums. Verbinden Sie einen VR-Controller, streamen Sie Aktionen in DreamDojo und steuern Sie einen virtuellen Roboter in Echtzeit. Wir demonstrieren dies auf dem Unitree G1 mit einem PICO-Headset und einer RTX 5090.
- Politikevaluierung. Sie können einen Politik-Checkpoint in DreamDojo benchmarken, anstatt in der realen Welt. Die simulierten Erfolgsraten korrelieren stark mit den Ergebnissen der realen Welt - genau genug, um Checkpoints zu bewerten, ohne einen einzigen Motor zu verbrennen.
- Modellbasiertes Planen. Mehrere Aktionsvorschläge erstellen → alle parallel simulieren → die beste Zukunft auswählen. Gewinne +17% Erfolg in der realen Welt direkt nach dem Auspacken bei einer Obstverpackungsaufgabe.
Wir machen alles Open Source!! Gewichte, Code, Post-Training-Datensatz, Evaluierungsset und Whitepaper mit vielen Details zur Reproduktion. DreamDojo basiert auf NVIDIA Cosmos, das ebenfalls Open-Weight ist.
2026 ist das Jahr der Weltmodelle für physische KI. Wir möchten, dass Sie mit uns bauen. Viel Spaß beim Skalieren!
Links im Thread:
375
Top
Ranking
Favoriten

