Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Ředitel robotiky společnosti NVIDIA a významný vědec. Spoluvedoucí laboratoře GEAR. Řešení fyzikálního AGI, jeden motor po druhém. Stanford, Ph.D., 1. stážista OpenAI.
Trénovali jsme humanoida s obratnýma rukama 22 stupňů F, aby skládal modely aut, obsluhoval stříkačky, třídil pokerové karty, skládal a roloval košile – to vše jsme se naučili především z 20 000+ hodin egocentrického lidského videa bez robota v smyčce.
Lidé jsou nejškálovatelnějším ztělesněním na planetě. Objevili jsme téměř dokonalý log-lineární škálovací zákon (R² = 0,998) mezi lidským objemem videa a ztrátou při predikci akcí, a tato ztráta přímo předpovídá úspěšnost reálných robotů.
Humanoidní roboti budou konečnou hrou, protože jsou praktickým tvarem s minimálním rozdílem v ztělesnění oproti lidem. Nazvěme to Hořkou lekcí robotického hardwaru: kinematická podobnost nám umožňuje jednoduše přesměrovat pohyb lidských prstů na obratné robotické klouby. Žádné naučené embeddingy, žádné složité přenosové algoritmy nepotřebují. Relativní pohyb zápěstí + přesměrované pohyby prstů 22-hloubky slouží jako jednotný akční prostor, který pokračuje od předtréninku až po robotické provedení.
Náš recept se jmenuje "EgoScale":
- Předtrénink GR00T N1.5 na 20 000 hodinách lidského videa, během tréninku s pouhými 4 hodinami (!) dat o robotické hře pomocí Sharpa rukou. 54 % zisku oproti tréninku od začátku v 5 vysoce obratných úkolech.
- Nejpřekvapivější výsledek: *jediná* teleop ukázka stačí k naučení dosud neviděného úkolu. Náš recept umožňuje extrémní efektivitu dat.
- Ačkoli předtrénujeme v prostoru kloubů rukou 22 stupňů F, politika se přenáší na Unitree G1 s trojprstými rukama 7 stupňů hloubky. Zisk 30%+ oproti tréninku pouze na G1 datech.
Cesta k robotické obratnosti byla škálovatelná už nikdy nebyla s roboty. Vždycky jsme to byli my.
Hloubkové ponoření do vlákna:
184
Oznamujeme DreamDojo: náš open-source, interaktivní model světa, který ovládá robotické motory a generuje budoucnost v pixelech. Žádný engine, žádné meshe, žádné ručně psané dynamiky. Je to Simulace 2.0. Je čas, aby robotika vzala hořkou lekci.
Učení robotů v reálném světě je omezeno časem, opotřebením, bezpečností a resetováním. Pokud chceme, aby fyzická AI fungovala rychlostí předtréninku, potřebujeme simulátor, který se přizpůsobí měřítku předtréninku s co nejmenším lidským inženýrstvím.
Naše klíčové poznatky: (1) lidská egocentrická videa jsou škálovatelným zdrojem fyziky z první osoby; (2) latentní akce je činí "roboticky čitelnými" napříč různými hardwaremi; (3) Inference v reálném čase odemyká živý teleop, hodnocení politiky a plánování během testování *uvnitř* snu.
Předškolíme se na 44 tisíc hodin lidských videí: levných, hojných a nasbíraných bez robota v smyčce. Lidé už kombinatoriku prozkoumali: chápeme, naléváme, skládáme, sestavujeme, selháváme, zkoušíme znovu – přes přeplněné scény, měnící se pohledy, měnící se světlo a hodinové řetězce úkolů – v měřítku, kterému žádná robotická flotila nemůže konkurovat. Chybějící část: tato videa nemají žádné označení akcí. Proto zavádíme latentní akce: jednotnou reprezentaci přímo odvozenou z videí, která zachycuje "co se změnilo mezi světovými stavy" bez znalosti základního hardwaru. To nám umožňuje trénovat na jakémkoli videu z pohledu první osoby, jako by k němu byly připojeny motorické příkazy.
Výsledkem je, že DreamDojo zobecňuje zero-shot na objekty a prostředí, která se v žádné výcvikové sadě robotů nikdy neobjevila, protože je lidé viděli jako první.
Poté se na každého robota natrénujeme po dokončení podle jeho konkrétního hardwaru. Představte si to jako oddělení "jak svět vypadá a chová se" od "jak tento konkrétní robot funguje." Základní model se řídí obecnými fyzikálními pravidly a pak se "přichytí" na jedinečné mechaniky robota. Je to trochu jako načíst novou postavu a scény do Unreal Engine, ale udělat to gradientovým sestupem a zobecňovat se daleko za rámec post-trénovacích datových sad.
Simulátor světa je užitečný jen tehdy, pokud běží dostatečně rychle na to, aby uzavřel smyčku. Trénujeme real-time verzi DreamDojo, která běží na 10 FPS, stabilní více než minutu nepřetržitého nasazení. To otevírá vzrušující možnosti:
- Živá teleoperace *uvnitř* snu. Připojte VR ovladač, streamujte akce do DreamDojo a teleopujte virtuálního robota v reálném čase. Předváděli jsme to na Unitree G1 s PICO headsetem a jednou RTX 5090.
- Hodnocení politiky. Ve DreamDojo můžete srovnávat kontrolní bod politiky místo skutečného světa. Simulované úspěšnosti silně korelují s reálnými výsledky – dostatečně přesné na to, aby se kontrolní body seřadily bez spálení jediného motoru.
- Plánování založené na modelu. Vyzkoušejte návrhy více akcí → simulujte je všechny paralelně → vyberte nejlepší budoucnost. Získává +17 % skutečný úspěch hned po vybalení z krabice na úkol s balením ovoce.
Všechno otevíráme jako open-source!! Váhy, kód, dataset po tréninku, evalovací sada a whitepaper s hromadou detailů k reprodukci. DreamDojo je založeno na NVIDIA Cosmos, který je také otevřený na váze.
Rok 2026 je rokem světových modelů pro fyzickou AI. Chceme, abyste s námi stavěli. Přeji příjemné škálování!
Odkazy ve vlákně:
360
Top
Hodnocení
Oblíbené

