Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
NVIDIAn robotiikan johtaja ja arvostettu tutkija. GEAR-laboratorion toinen johtaja. Fyysisen AGI:n ratkaiseminen, yksi moottori kerrallaan. Stanford Ph.D. OpenAI:n 1. harjoittelija.
Koulutimme humanoidin, jolla oli 22-DoF-ketterät kädet, kokoamaan pienoismalliautoja, käyttämään ruiskuja, lajittelemaan pokerikortteja, taittamaan tai rullaamaan paitoja – kaikki opittiin pääasiassa 20 000+ tunnin itsekeskeisestä ihmisvideosta ilman robottia silmukassa.
Ihmiset ovat planeetan skaalautuvin ilmentymä. Löysimme lähes täydellisen log-lineaarisen skaalauslain (R² = 0,998) ihmisen videovolyymin ja toiminnan ennustehäviön välillä, ja tämä häviö ennustaa suoraan todellisen robotin onnistumisprosenttia.
Humanoidirobotit ovat lopullinen peli, koska ne ovat käytännöllinen muoto, jossa ihmisiin nähden ruumiillistumisero on minimaalinen. Kutsutaan sitä robottilaitteiston karvaaksi oppitunniksi: kinemaattinen samankaltaisuus antaa mahdollisuuden yksinkertaisesti kohdistaa ihmisen sormien liikkeet ketteriin robotin käden niveliin. Ei opittuja upotuksia, ei monimutkaisia siirtoalgoritmeja. Suhteellinen ranneliike + uudelleen kohdennetut 22-DoF-sormiliikkeet toimivat yhtenäisenä toimintatilana, joka jatkuu esikoulutuksesta robotin suoritukseen.
Reseptimme nimi on "EgoScale":
- GR00T N1.5:n esikoulutus 20 000 tunnin ihmisvideolla, keskellä harjoitusta, vain 4 tuntia (!) robottipelidataa Sharpa-käsillä. 54 % hyötyä kuin harjoittelu alusta alkaen viidessä erittäin ketterässä tehtävässä.
- Yllättävin tulos: *yksi* teleop-demo riittää oppimaan ennennäkemättömän tehtävän. Reseptimme mahdollistaa äärimmäisen datatehokkuuden.
- Vaikka esikoulutamme 22-doF käsiniveltilassa, käytäntö siirtyy Unitree G1:een, jossa on 7-doF-kolmisormeiset kädet. 30 %+ edistystä verrattuna pelkästään G1-dataan perustuvaan koulutukseen.
Skaalautuva polku robottien ketteryyteen ei koskaan ollut enää robotteja. Se olimme aina me.
Syvällisiä sukelluksia ketjuun:
193
Julkistamme DreamDojon: avoimen lähdekoodin, interaktiivisen maailmanmallimme, joka ottaa robottimoottorin ohjaukset ja luo tulevaisuuden pikseleissä. Ei moottoria, ei verkkoja, ei käsin tehtyjä dynamiikkoja. Se on Simulation 2.0. Robotiikan aika ottaa katkera oppipilleri.
Todellisen maailman robottioppimista rajoittavat aika, kuluminen, turvallisuus ja nollaukset. Jos haluamme, että fyysinen tekoäly liikkuu esikoulutusnopeudella, tarvitsemme simulaattorin, joka mukautuu esikoulutuksen mittakaavaan mahdollisimman vähällä ihmisen insinöörityöllä.
Keskeiset oivalluksemme: (1) ihmisen egosentriset videot ovat skaalautuva ensimmäisen persoonan fysiikan lähde; (2) piilevät toiminnot tekevät niistä "robotin luettavia" eri laitteistoilla; (3) reaaliaikainen päättely avaa live-teleopin, politiikan arvioinnin ja testiajan suunnittelun *unessa* sisällä.
Esikoulutamme 44 000 tuntia ihmisvideoita: halpoja, runsaita ja kerättyjä ilman robotti-in-the-loopia. Ihmiset ovat jo tutkineet kombinatoriikkaa: me tartumme, kaadamme, taittelemme, kokoamme, epäonnistumme, yritämme uudelleen—sekavien kohtauksiden, vaihtuvien näkökulmien, muuttuvan valon ja tunnin mittaisten tehtäväketjujen läpi—mittakaavassa, johon mikään robottilaivasto ei pysty vastaamaan. Puuttuva palanen: näissä videoissa ei ole toimintamerkintöjä. Siksi esittelemme latentteja toimintoja: yhtenäisen esityksen, joka johdetaan suoraan videoista ja tallentaa "mitä maailmantilojen välillä on muuttunut" ilman taustalla olevaa laitteistoa. Tämä antaa meille mahdollisuuden harjoitella millä tahansa ensimmäisen persoonan videolla ikään kuin siihen liittyisi moottorikomentoja.
Tämän seurauksena DreamDojo yleistää nollalaukauksen esineisiin ja ympäristöihin, joita ei ole koskaan nähty missään robottikoulutussetissä, koska ihmiset näkivät ne ensin.
Seuraavaksi koulutamme jälkikoulutuksen jokaiselle robotille, jotta se sopii sen omaan laitteistoonsa. Ajattele sitä niin, että erotetaan "miltä maailma näyttää ja käyttäytyy" siitä, miten tämä robotti toimii. Perusmalli noudattaa yleisiä fyysisiä sääntöjä ja "napsahtaa" robotin ainutlaatuisiin mekaniikkoihin. Se on vähän kuin uuden hahmon ja kohtausresurssien lataaminen Unreal Engineen, mutta gradienttilaskeutumisen kautta ja yleistää paljon koulutuksen jälkeisen aineiston ulkopuolelle.
Maailmansimulaattori on hyödyllinen vain, jos se pyörii tarpeeksi nopeasti sulkeakseen silmukan. Koulutamme reaaliaikaisen version DreamDojosta, joka pyörii 10 FPS:llä ja on vakaa yli minuutin jatkuvan julkaisun ajan. Tämä avaa jännittäviä mahdollisuuksia:
- Live-teleoperaatio *unen sisällä*. Yhdistä VR-ohjain, striimaa toimintoja DreamDojoon ja teleopata virtuaalirobotti reaaliajassa. Esittelemme tätä Unitree G1:llä PICO headsetillä ja yhdellä RTX 5090:llä.
- Politiikan arviointi. Voit benchmarkata politiikan tarkistuspisteen DreamDojossa todellisen maailman sijaan. Simuloidut onnistumisprosentit korreloivat vahvasti todellisten tulosten kanssa – riittävän tarkkoja, jotta tarkistuspisteet voidaan sijoittaa ilman, että yhtään moottoria ei voi kuluttaa.
- Mallipohjainen suunnittelu. Näytä useita toimintaehdotuksia → simuloi ne kaikki rinnakkain → valitse paras tulevaisuus. Saa +17 % todellista menestystä suoraan laatikosta hedelmien pakkaustehtävässä.
Me avaamme kaiken avoimen lähdekoodin!! Painot, koodi, harjoituksen jälkeinen aineisto, arviointisarja ja valkoinen kirja, jossa on paljon yksityiskohtia toistettavaksi. DreamDojo perustuu NVIDIA Cosmosiin, joka on myös avoin paino.
Vuosi 2026 on fyysisen tekoälyn maailmanmallien vuosi. Haluamme, että rakennat kanssamme. Hyvää skaalautumista!
Linkit ketjussa:
370
Johtavat
Rankkaus
Suosikit

