Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
NVIDIA Directeur van Robotica & Vooraanstaand Wetenschapper. Co-leider van het GEAR-lab. Fysieke AGI oplossen, één motor tegelijk. Stanford Ph.D. OpenAI's 1e stagiair.
We hebben een humanoïde met 22-DoF behendige handen getraind om modelauto's in elkaar te zetten, spuiten te bedienen, pokercards te sorteren, en shirts te vouwen/rollen, allemaal voornamelijk geleerd van meer dan 20.000 uur egocentrische menselijke video zonder robot in de lus.
Mensen zijn de meest schaalbare belichaming op de planeet. We ontdekten een bijna perfecte log-lineaire schaalwet (R² = 0.998) tussen het volume van menselijke video en de verlies van actievoorspelling, en dit verlies voorspelt direct het succespercentage van echte robots.
Humanoïde robots zullen het eindspel zijn, omdat ze de praktische vormfactor zijn met een minimale belichamingskloof ten opzichte van mensen. Noem het de Bittere Les van robothardware: de kinematische gelijkenis laat ons eenvoudigweg menselijke vingerbewegingen opnieuw richten op behendige robothandgewrichten. Geen geleerde embeddings, geen fancy transferalgoritmen nodig. Relatieve polsbeweging + opnieuw gerichte 22-DoF vingeracties dienen als een verenigde actieruimte die doorloopt van pre-training tot robotuitvoering.
Ons recept heet "EgoScale":
- Pre-train GR00T N1.5 op 20K uur menselijke video, mid-train met slechts 4 uur (!) robot speeldata met Sharpa handen. 54% winst ten opzichte van training vanaf nul over 5 zeer behendige taken.
- Meest verrassende resultaat: een *enkele* teleop-demo is voldoende om een nog nooit eerder gezien taak te leren. Ons recept maakt extreme data-efficiëntie mogelijk.
- Hoewel we pre-trainen in 22-DoF handgewrichtruimte, wordt het beleid overgedragen naar een Unitree G1 met 7-DoF tri-vinger handen. Meer dan 30% winst ten opzichte van training op G1-data alleen.
De schaalbare weg naar robotbehendigheid was nooit meer robots. Het was altijd wij.
Diepe duiken in de thread:
188
Aankondiging van DreamDojo: ons open-source, interactieve wereldmodel dat robotmotorbesturingen neemt en de toekomst in pixels genereert. Geen engine, geen meshes, geen handgeschreven dynamiek. Het is Simulatie 2.0. Tijd voor robotica om de bittere les te leren.
Leren van robots in de echte wereld wordt beperkt door tijd, slijtage, veiligheid en resets. Als we willen dat Fysieke AI zich met de snelheid van pretraining beweegt, hebben we een simulator nodig die zich aanpast aan de schaal van pretraining met zo min mogelijk menselijke engineering.
Onze belangrijkste inzichten: (1) menselijke egocentrische video's zijn een schaalbare bron van first-person fysica; (2) latente acties maken ze "robot-leesbaar" op verschillende hardware; (3) real-time inferentie ontgrendelt live teleoperatie, beleidsbeoordeling en testtijdplanning *binnen* een droom.
We pre-trainen op 44K uur aan menselijke video's: goedkoop, overvloedig en verzameld zonder robot-in-de-lus. Mensen hebben al de combinatoriek verkend: we grijpen, gieten, vouwen, assembleren, falen, proberen opnieuw—over rommelige scènes, verschuivende gezichtspunten, veranderend licht en taakketens van een uur—op een schaal die geen robotvloot kan evenaren. Het ontbrekende stuk: deze video's hebben geen actie-labels. Dus introduceren we latente acties: een uniforme representatie die rechtstreeks uit video's wordt afgeleid en "wat veranderde tussen wereldtoestanden" vastlegt zonder de onderliggende hardware te kennen. Dit stelt ons in staat om op elke first-person video te trainen alsof deze met motorcommando's was bijgevoegd.
Als resultaat generaliseert DreamDojo zero-shot naar objecten en omgevingen die nooit in een robot trainingsset zijn gezien, omdat mensen ze eerst hebben gezien.
Vervolgens post-trainen we op elke robot om deze aan te passen aan zijn specifieke hardware. Zie het als het scheiden van "hoe de wereld eruit ziet en zich gedraagt" van "hoe deze specifieke robot actuates." Het basismodel volgt de algemene fysieke regels, en "snapt dan" op de unieke mechanica van de robot. Het is een beetje zoals het laden van een nieuw personage en scène-assets in Unreal Engine, maar gedaan door middel van gradient descent en generaliseert veel verder dan de post-training dataset.
Een wereldsimulator is alleen nuttig als deze snel genoeg draait om de lus te sluiten. We trainen een real-time versie van DreamDojo die draait op 10 FPS, stabiel voor meer dan een minuut van continue rollout. Dit ontgrendelt spannende mogelijkheden:
- Live teleoperatie *binnen* een droom. Verbind een VR-controller, stream acties naar DreamDojo en teleop een virtuele robot in real-time. We demonstreren dit op Unitree G1 met een PICO-headset en één RTX 5090.
- Beleidsbeoordeling. Je kunt een beleidscheckpoint in DreamDojo benchmarken in plaats van in de echte wereld. De gesimuleerde succespercentages correleren sterk met de resultaten uit de echte wereld - nauwkeurig genoeg om checkpoints te rangschikken zonder een enkele motor te verbranden.
- Model-gebaseerde planning. Monster meerdere actievoorstellen → simuleer ze allemaal parallel → kies de beste toekomst. Winst +17% succes in de echte wereld direct uit de doos op een fruitverpakkingsopdracht.
We open-source alles!! Gewichten, code, post-training dataset, eval set en whitepaper met veel details om te reproduceren. DreamDojo is gebaseerd op NVIDIA Cosmos, dat ook open-gewicht is.
2026 is het jaar van Wereldmodellen voor fysieke AI. We willen dat je met ons bouwt. Veel plezier met schalen!
Links in de thread:
365
Boven
Positie
Favorieten

