Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anunciando DreamDojo: nuestro modelo de mundo interactivo y de código abierto que toma los controles de los motores de los robots y genera el futuro en píxeles. Sin motor, sin mallas, sin dinámicas hechas a mano. Es Simulación 2.0. Hora de que la robótica tome la amarga lección.
El aprendizaje de robots en el mundo real está limitado por el tiempo, el desgaste, la seguridad y los reinicios. Si queremos que la IA física se mueva a velocidad de preentrenamiento, necesitamos un simulador que se adapte a la escala de preentrenamiento con la menor cantidad posible de ingeniería humana.
Nuestras principales conclusiones: (1) los vídeos egocéntricos humanos son una fuente escalable de física en primera persona; (2) las acciones latentes las hacen "legibles por robot" a través de diferentes hardwares; (3) La inferencia en tiempo real desbloquea la teleop, evaluación de políticas y planificación en tiempo de prueba *dentro* de un sueño.
Entrenamos previamente con 44.000 horas de vídeos humanos: baratos, abundantes y coleccionados, sin ningún robot involucrado. Los humanos ya han explorado la combinatoria: agarramos, vertimos, doblamentos, ensamblamos, fracasamos, intentamos de nuevo —a través de escenas saturadas, puntos de vista cambiantes, luz cambiante y cadenas de tareas de una hora— a una escala que ninguna flota robótica podría igualar. La pieza que faltaba: estos vídeos no tienen etiquetas de acción. Así que introducimos acciones latentes: una representación unificada inferida directamente de vídeos que captura "qué cambió entre estados del mundo" sin conocer el hardware subyacente. Esto nos permite entrenar con cualquier vídeo en primera persona como si viniera con comandos motores.
Como resultado, DreamDojo generaliza el disparo cero a objetos y entornos nunca vistos en ningún set de entrenamiento robótico, porque los humanos los vieron primero.
A continuación, entrenamos en post-entrenamiento en cada robot para adaptarlo a su hardware específico. Piénsalo como separar "cómo se ve y se comporta el mundo" de "cómo actúa este robot en particular". El modelo base sigue las reglas físicas generales y luego "se acopla" a la mecánica única del robot. Es un poco como cargar un nuevo personaje y activos de escena en Unreal Engine, pero hecho mediante descenso de gradiente y generalizando mucho más allá del conjunto de datos post-entrenamiento.
Un simulador de mundo solo es útil si va lo suficientemente rápido como para cerrar el ciclo. Entrenamos una versión en tiempo real de DreamDojo que funciona a 10 FPS, estable durante más de un minuto de despliegue continuo. Esto desbloquea posibilidades emocionantes:
- Teleoperación en directo *dentro* de un sueño. Conecta un mando de VR, transmite acciones en DreamDojo y teleopera un robot virtual en tiempo real. Lo demostramos en Unitree G1 con un auricular PICO y una RTX 5090.
- Evaluación de políticas. Puedes comparar un punto de control de política en DreamDojo en lugar del mundo real. Las tasas de éxito simuladas se correlacionan fuertemente con los resultados reales, lo suficientemente precisos como para clasificar los puntos de control sin quemar ni un solo motor.
- Planificación basada en modelos. Prueba múltiples propuestas de acción → simulalas todas en paralelo → elegir el mejor futuro. Consigue +17% de éxito en el mundo real desde el primer momento en una tarea de envasado de fruta.
¡Abrimos todo en código abierto! Pesos, código, conjunto de datos post-entrenamiento, conjunto de evaluaciones y whitepaper con montones de detalles para reproducir. DreamDojo está basado en NVIDIA Cosmos, que también es de peso abierto.
2026 es el año de los Modelos Mundiales para la IA física. Queremos que construyas con nosotros. ¡Feliz escalado!
Enlaces en el hilo:
Populares
Ranking
Favoritas
