Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
NVIDIA:s chef för robotik och framstående forskare. Co-Lead för GEAR-labbet. Lösa fysikalisk AGI, en motor i taget. Stanford Ph.D. OpenAI:s 1:a praktikant.
Vi tränade en humanoid med 22-djups fingerfärdiga händer för att montera modellbilar, använda sprutor, sortera pokerkort, vika/rulla skjortor, allt lärt sig främst från 20 000+ timmar egocentrisk mänsklig video utan någon robot i loopen.
Människor är den mest skalbara förkroppsligandet på planeten. Vi upptäckte en nästan perfekt log-linjär skalningslag (R² = 0,998) mellan mänsklig videovolym och förlust av handlingsförutsägelse, och denna förlust förutspår direkt framgångsgraden för verkliga robotar.
Humanoida robotar kommer att vara slutmålet, eftersom de är den praktiska formfaktorn med minimal förkroppsligandeskillnad jämfört med människor. Kalla det robothårdvarans bittra läxa: den kinematiska likheten låter oss helt enkelt rikta om människans fingerrörelser till smidiga robothandleder. Inga inlärda embeddings, inga avancerade överföringsalgoritmer behövs. Relativ handledsrörelse + omriktade 22-djupviddsfingrarrörelser fungerar som ett enhetligt handlingsutrymme som går från förträning till robotutförande.
Vårt recept heter "EgoScale":
- Pre-train GR00T N1.5 på 20 000 timmar mänsklig video, mitt i tåget med endast 4 timmar (!) robotspeldata med Sharpa-händer. 54% vinst jämfört med träning från grunden över 5 mycket smidiga uppgifter.
- Mest överraskande resultat: en *enda* teleop-demo räcker för att lära sig en aldrig tidigare skådad uppgift. Vårt recept möjliggör extrem dataeffektivitet.
- Även om vi förtränar i 22-DoF handledsutrymme, överförs policyn till en Unitree G1 med 7-DoF tri-finger-händer. 30%+ vinster jämfört med träning enbart på G1-data.
Den skalbara vägen till robotsmidighet var aldrig fler robotar. Det var alltid vi.
Djupdykningar i tråden:
186
Tillkännagivande av DreamDojo: vår öppna källkodsmodell för interaktiva världar som tar robotmotoriska kontroller och genererar framtiden i pixlar. Ingen motor, inga mesh, inga handskrivna dynamiker. Det är Simulation 2.0. Dags för robotiken att ta den bittra läxan.
Verklig robotinlärning är flaskhalsad av tid, slitage, säkerhet och återställningar. Om vi vill att fysisk AI ska röra sig i förträningshastighet behöver vi en simulator som anpassar sig till förträningsskala med så lite mänsklig ingenjörskonst som möjligt.
Våra viktigaste insikter: (1) mänskliga egocentriska videor är en skalbar källa till förstapersonsfysik; (2) latenta handlingar gör dem "robotläsbara" över olika hårdvaror; (3) realtidsinferens låser upp live teleop, policyutvärdering och testplanering *inom* en dröm.
Vi förtränar på 44 000 timmar mänskliga videor: billiga, rikliga och samlade utan någon robot-i-loopen. Människor har redan utforskat kombinatoriken: vi griper, häller, viker, sätter ihop, misslyckas, försöker igen—över röriga scener, skiftande synpunkter, skiftande ljus och timslånga uppgiftskedjor—i en skala som ingen robotflotta kan matcha. Den saknade pusselbiten: dessa videor har inga handlingsetiketter. Så vi introducerar latenta handlingar: en enhetlig representation som härleds direkt från videor och fångar "vad som förändrades mellan världstillstånden" utan att känna till den underliggande hårdvaran. Detta låter oss träna på vilken förstapersonsvideo som helst som om den kom med motoriska kommandon kopplade till det.
Som ett resultat generaliserar DreamDojo zero-shot till objekt och miljöer som aldrig setts i någon robotträningsstudio, eftersom människor såg dem först.
Därefter eftertränar vi på varje robot för att passa dess specifika hårdvara. Tänk på det som att skilja på "hur världen ser ut och beter sig" från "hur just den här roboten aktiveras." Basmodellen följer de allmänna fysiska reglerna och "fäster sig sedan vid" robotens unika mekanik. Det är lite som att ladda in en ny karaktär och scenmaterial i Unreal Engine, men gjort genom gradient descent och generaliserar långt bortom datasetet efter träning.
En världssimulator är bara användbar om den går tillräckligt snabbt för att stänga loopen. Vi tränar en realtidsversion av DreamDojo som körs i 10 FPS, stabil i över en minut av kontinuerlig utrullning. Detta öppnar spännande möjligheter:
- Live teleoperation *inuti* en dröm. Koppla in en VR-kontroll, strömma handlingar till DreamDojo och teleopera en virtuell robot i realtid. Vi demonstrerar detta på Unitree G1 med ett PICO-headset och ett RTX 5090.
- Policyutvärdering. Du kan benchmarka en policykontroll i DreamDojo istället för i verkligheten. De simulerade framgångsfrekvenserna korrelerar starkt med verkliga resultat – tillräckligt noggranna för att rangordna checkpoints utan att en enda motor behöver brännas.
- Modellbaserad planering. Prova flera åtgärdsförslag → simulera dem alla parallellt → välja den bästa framtiden. Får +17 % verklig framgång direkt från lådan på en fruktpackningsuppgift.
Vi öppnar allt öppen källkod!! Vikter, kod, dataset efter träning, utvärderingsset och whitepaper med massor av detaljer att återge. DreamDojo är baserat på NVIDIA Cosmos, som också är öppet i vikt.
2026 är året för världsmodeller för fysisk AI. Vi vill att du bygger med oss. Lycka till med skalningen!
Länkar i tråden:
363
Topp
Rankning
Favoriter

