DApp Store | Centrum Web3 pro události a hry

Populární témata

Jim Fan

Ředitel robotiky společnosti NVIDIA a významný vědec. Spoluvedoucí laboratoře GEAR. Řešení fyzikálního AGI, jeden motor po druhém. Stanford, Ph.D., 1. stážista OpenAI.

Oznamujeme DreamDojo: náš open-source, interaktivní model světa, který ovládá robotické motory a generuje budoucnost v pixelech. Žádný engine, žádné meshe, žádné ručně psané dynamiky. Je to Simulace 2.0. Je čas, aby robotika vzala hořkou lekci. Učení robotů v reálném světě je omezeno časem, opotřebením, bezpečností a resetováním. Pokud chceme, aby fyzická AI fungovala rychlostí předtréninku, potřebujeme simulátor, který se přizpůsobí měřítku předtréninku s co nejmenším lidským inženýrstvím. Naše klíčové poznatky: (1) lidská egocentrická videa jsou škálovatelným zdrojem fyziky z první osoby; (2) latentní akce je činí "roboticky čitelnými" napříč různými hardwaremi; (3) Inference v reálném čase odemyká živý teleop, hodnocení politiky a plánování během testování *uvnitř* snu. Předškolíme se na 44 tisíc hodin lidských videí: levných, hojných a nasbíraných bez robota v smyčce. Lidé už kombinatoriku prozkoumali: chápeme, naléváme, skládáme, sestavujeme, selháváme, zkoušíme znovu – přes přeplněné scény, měnící se pohledy, měnící se světlo a hodinové řetězce úkolů – v měřítku, kterému žádná robotická flotila nemůže konkurovat. Chybějící část: tato videa nemají žádné označení akcí. Proto zavádíme latentní akce: jednotnou reprezentaci přímo odvozenou z videí, která zachycuje "co se změnilo mezi světovými stavy" bez znalosti základního hardwaru. To nám umožňuje trénovat na jakémkoli videu z pohledu první osoby, jako by k němu byly připojeny motorické příkazy. Výsledkem je, že DreamDojo zobecňuje zero-shot na objekty a prostředí, která se v žádné výcvikové sadě robotů nikdy neobjevila, protože je lidé viděli jako první. Poté se na každého robota natrénujeme po dokončení podle jeho konkrétního hardwaru. Představte si to jako oddělení "jak svět vypadá a chová se" od "jak tento konkrétní robot funguje." Základní model se řídí obecnými fyzikálními pravidly a pak se "přichytí" na jedinečné mechaniky robota. Je to trochu jako načíst novou postavu a scény do Unreal Engine, ale udělat to gradientovým sestupem a zobecňovat se daleko za rámec post-trénovacích datových sad. Simulátor světa je užitečný jen tehdy, pokud běží dostatečně rychle na to, aby uzavřel smyčku. Trénujeme real-time verzi DreamDojo, která běží na 10 FPS, stabilní více než minutu nepřetržitého nasazení. To otevírá vzrušující možnosti: - Živá teleoperace *uvnitř* snu. Připojte VR ovladač, streamujte akce do DreamDojo a teleopujte virtuálního robota v reálném čase. Předváděli jsme to na Unitree G1 s PICO headsetem a jednou RTX 5090. - Hodnocení politiky. Ve DreamDojo můžete srovnávat kontrolní bod politiky místo skutečného světa. Simulované úspěšnosti silně korelují s reálnými výsledky – dostatečně přesné na to, aby se kontrolní body seřadily bez spálení jediného motoru. - Plánování založené na modelu. Vyzkoušejte návrhy více akcí → simulujte je všechny paralelně → vyberte nejlepší budoucnost. Získává +17 % skutečný úspěch hned po vybalení z krabice na úkol s balením ovoce. Všechno otevíráme jako open-source!! Váhy, kód, dataset po tréninku, evalovací sada a whitepaper s hromadou detailů k reprodukci. DreamDojo je založeno na NVIDIA Cosmos, který je také otevřený na váze. Rok 2026 je rokem světových modelů pro fyzickou AI. Chceme, abyste s námi stavěli. Přeji příjemné škálování! Odkazy ve vlákně:

Top

Hodnocení

Oblíbené