DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Jim Fan

NVIDIA Directeur van Robotica & Vooraanstaand Wetenschapper. Co-leider van het GEAR-lab. Fysieke AGI oplossen, één motor tegelijk. Stanford Ph.D. OpenAI's 1e stagiair.

Aankondiging van DreamDojo: ons open-source, interactieve wereldmodel dat robotmotorbesturingen neemt en de toekomst in pixels genereert. Geen engine, geen meshes, geen handgeschreven dynamiek. Het is Simulatie 2.0. Tijd voor robotica om de bittere les te leren. Leren van robots in de echte wereld wordt beperkt door tijd, slijtage, veiligheid en resets. Als we willen dat Fysieke AI zich met de snelheid van pretraining beweegt, hebben we een simulator nodig die zich aanpast aan de schaal van pretraining met zo min mogelijk menselijke engineering. Onze belangrijkste inzichten: (1) menselijke egocentrische video's zijn een schaalbare bron van first-person fysica; (2) latente acties maken ze "robot-leesbaar" op verschillende hardware; (3) real-time inferentie ontgrendelt live teleoperatie, beleidsbeoordeling en testtijdplanning *binnen* een droom. We pre-trainen op 44K uur aan menselijke video's: goedkoop, overvloedig en verzameld zonder robot-in-de-lus. Mensen hebben al de combinatoriek verkend: we grijpen, gieten, vouwen, assembleren, falen, proberen opnieuw—over rommelige scènes, verschuivende gezichtspunten, veranderend licht en taakketens van een uur—op een schaal die geen robotvloot kan evenaren. Het ontbrekende stuk: deze video's hebben geen actie-labels. Dus introduceren we latente acties: een uniforme representatie die rechtstreeks uit video's wordt afgeleid en "wat veranderde tussen wereldtoestanden" vastlegt zonder de onderliggende hardware te kennen. Dit stelt ons in staat om op elke first-person video te trainen alsof deze met motorcommando's was bijgevoegd. Als resultaat generaliseert DreamDojo zero-shot naar objecten en omgevingen die nooit in een robot trainingsset zijn gezien, omdat mensen ze eerst hebben gezien. Vervolgens post-trainen we op elke robot om deze aan te passen aan zijn specifieke hardware. Zie het als het scheiden van "hoe de wereld eruit ziet en zich gedraagt" van "hoe deze specifieke robot actuates." Het basismodel volgt de algemene fysieke regels, en "snapt dan" op de unieke mechanica van de robot. Het is een beetje zoals het laden van een nieuw personage en scène-assets in Unreal Engine, maar gedaan door middel van gradient descent en generaliseert veel verder dan de post-training dataset. Een wereldsimulator is alleen nuttig als deze snel genoeg draait om de lus te sluiten. We trainen een real-time versie van DreamDojo die draait op 10 FPS, stabiel voor meer dan een minuut van continue rollout. Dit ontgrendelt spannende mogelijkheden: - Live teleoperatie *binnen* een droom. Verbind een VR-controller, stream acties naar DreamDojo en teleop een virtuele robot in real-time. We demonstreren dit op Unitree G1 met een PICO-headset en één RTX 5090. - Beleidsbeoordeling. Je kunt een beleidscheckpoint in DreamDojo benchmarken in plaats van in de echte wereld. De gesimuleerde succespercentages correleren sterk met de resultaten uit de echte wereld - nauwkeurig genoeg om checkpoints te rangschikken zonder een enkele motor te verbranden. - Model-gebaseerde planning. Monster meerdere actievoorstellen → simuleer ze allemaal parallel → kies de beste toekomst. Winst +17% succes in de echte wereld direct uit de doos op een fruitverpakkingsopdracht. We open-source alles!! Gewichten, code, post-training dataset, eval set en whitepaper met veel details om te reproduceren. DreamDojo is gebaseerd op NVIDIA Cosmos, dat ook open-gewicht is. 2026 is het jaar van Wereldmodellen voor fysieke AI. We willen dat je met ons bouwt. Veel plezier met schalen! Links in de thread:

Boven

Positie

Favorieten