DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Jim Fan

NVIDIA:s chef för robotik och framstående forskare. Co-Lead för GEAR-labbet. Lösa fysikalisk AGI, en motor i taget. Stanford Ph.D. OpenAI:s 1:a praktikant.

Tillkännagivande av DreamDojo: vår öppna källkodsmodell för interaktiva världar som tar robotmotoriska kontroller och genererar framtiden i pixlar. Ingen motor, inga mesh, inga handskrivna dynamiker. Det är Simulation 2.0. Dags för robotiken att ta den bittra läxan. Verklig robotinlärning är flaskhalsad av tid, slitage, säkerhet och återställningar. Om vi vill att fysisk AI ska röra sig i förträningshastighet behöver vi en simulator som anpassar sig till förträningsskala med så lite mänsklig ingenjörskonst som möjligt. Våra viktigaste insikter: (1) mänskliga egocentriska videor är en skalbar källa till förstapersonsfysik; (2) latenta handlingar gör dem "robotläsbara" över olika hårdvaror; (3) realtidsinferens låser upp live teleop, policyutvärdering och testplanering *inom* en dröm. Vi förtränar på 44 000 timmar mänskliga videor: billiga, rikliga och samlade utan någon robot-i-loopen. Människor har redan utforskat kombinatoriken: vi griper, häller, viker, sätter ihop, misslyckas, försöker igen—över röriga scener, skiftande synpunkter, skiftande ljus och timslånga uppgiftskedjor—i en skala som ingen robotflotta kan matcha. Den saknade pusselbiten: dessa videor har inga handlingsetiketter. Så vi introducerar latenta handlingar: en enhetlig representation som härleds direkt från videor och fångar "vad som förändrades mellan världstillstånden" utan att känna till den underliggande hårdvaran. Detta låter oss träna på vilken förstapersonsvideo som helst som om den kom med motoriska kommandon kopplade till det. Som ett resultat generaliserar DreamDojo zero-shot till objekt och miljöer som aldrig setts i någon robotträningsstudio, eftersom människor såg dem först. Därefter eftertränar vi på varje robot för att passa dess specifika hårdvara. Tänk på det som att skilja på "hur världen ser ut och beter sig" från "hur just den här roboten aktiveras." Basmodellen följer de allmänna fysiska reglerna och "fäster sig sedan vid" robotens unika mekanik. Det är lite som att ladda in en ny karaktär och scenmaterial i Unreal Engine, men gjort genom gradient descent och generaliserar långt bortom datasetet efter träning. En världssimulator är bara användbar om den går tillräckligt snabbt för att stänga loopen. Vi tränar en realtidsversion av DreamDojo som körs i 10 FPS, stabil i över en minut av kontinuerlig utrullning. Detta öppnar spännande möjligheter: - Live teleoperation *inuti* en dröm. Koppla in en VR-kontroll, strömma handlingar till DreamDojo och teleopera en virtuell robot i realtid. Vi demonstrerar detta på Unitree G1 med ett PICO-headset och ett RTX 5090. - Policyutvärdering. Du kan benchmarka en policykontroll i DreamDojo istället för i verkligheten. De simulerade framgångsfrekvenserna korrelerar starkt med verkliga resultat – tillräckligt noggranna för att rangordna checkpoints utan att en enda motor behöver brännas. - Modellbaserad planering. Prova flera åtgärdsförslag → simulera dem alla parallellt → välja den bästa framtiden. Får +17 % verklig framgång direkt från lådan på en fruktpackningsuppgift. Vi öppnar allt öppen källkod!! Vikter, kod, dataset efter träning, utvärderingsset och whitepaper med massor av detaljer att återge. DreamDojo är baserat på NVIDIA Cosmos, som också är öppet i vikt. 2026 är året för världsmodeller för fysisk AI. Vi vill att du bygger med oss. Lycka till med skalningen! Länkar i tråden:

Topp

Rankning

Favoriter