Vi annonserer DreamDojo: vår åpne kildekode, interaktive verdensmodell som tar robotmotoriske kontroller og genererer fremtiden i piksler. Ingen motor, ingen mesh, ingen håndlaget dynamikk. Det er Simulering 2.0. Tid for robotikk å ta den bitre leksjonspillen. Virkelig robotlæring er flaskehalset av tid, slitasje, sikkerhet og tilbakestillinger. Hvis vi vil at fysisk AI skal bevege seg i forhåndstreningshastighet, trenger vi en simulator som tilpasser seg forhåndstreningsskala med så lite menneskelig ingeniørkunst som mulig. Våre viktigste innsikter: (1) menneskets egosentriske videoer er en skalerbar kilde til førstepersonsfysikk; (2) latente handlinger gjør dem «robotlesbare» på tvers av ulike maskinvare; (3) sanntidsinferens låser opp live teleop, policyvurdering og testtidsplanlegging *inne* i en drøm. Vi forhåndstrener på 44 000 timer med menneskelige videoer: billige, rikelige og samlet uten robot-i-loopen. Mennesker har allerede utforsket kombinatorikken: vi griper, heller, bretter, setter sammen, feiler, prøver på nytt—på tvers av rotete scener, skiftende synsvinkler, skiftende lys og timelange oppgaver—i en skala ingen robotflåte kan matche. Den manglende brikken: disse videoene har ingen handlingsetiketter. Derfor introduserer vi latente handlinger: en samlet representasjon som utledes direkte fra videoer og fanger «hva som endret seg mellom verdenstilstander» uten å kjenne til den underliggende maskinvaren. Dette lar oss trene på hvilken som helst førstepersonsvideo som om den kom med motoriske kommandoer vedlagt. Som et resultat generaliserer DreamDojo zero-shot til objekter og miljøer som aldri er sett i noe robottreningssett, fordi mennesker så dem først. Deretter trener vi på hver robot for å tilpasse den spesifikke maskinvaren. Tenk på det som å skille «hvordan verden ser ut og oppfører seg» fra «hvordan denne roboten aktiveres». Basismodellen følger de generelle fysiske reglene, og «fester seg på» robotens unike mekanikk. Det er litt som å laste inn en ny karakter og sceneressurser i Unreal Engine, men gjort gjennom gradient descent og generaliserer langt utover datasettet etter trening. En verdenssimulator er bare nyttig hvis den kjører raskt nok til å lukke løkken. Vi trener en sanntidsversjon av DreamDojo som kjører på 10 FPS, stabil i over ett minutt med kontinuerlig utrulling. Dette åpner spennende muligheter: - Live teleoperasjon *inne* i en drøm. Koble til en VR-kontroller, strøm handlinger inn i DreamDojo, og teleopera en virtuell robot i sanntid. Vi demonstrerer dette på Unitree G1 med et PICO-headset og ett RTX 5090. - Evaluering av politikk. Du kan benchmarke et policy-sjekkpunkt i DreamDojo i stedet for i den virkelige verden. De simulerte suksessratene korrelerer sterkt med virkelige resultater – nøyaktige nok til å rangere sjekkpunkter uten å bruke en eneste motor. - Modellbasert planlegging. Ta eksempler på flere aksjonsforslag → simuler dem alle parallelt → velg den beste fremtiden. Får +17 % reell suksess rett ut av boksen på en fruktpakkeoppgave. Vi gjør alt åpen kildekode!! Vekter, kode, datasett etter trening, evalueringssett og whitepaper med masse detaljer å gjenskape. DreamDojo er basert på NVIDIA Cosmos, som også er åpen vekt. 2026 er året for verdensmodeller for fysisk KI. Vi vil at du skal bygge sammen med oss. God skalering! Lenker i tråden: