Mi artículo favorito de este año: "Los modelos de video son aprendices y razonadores sin entrenamiento" Ilustra que los modelos de video muestran razonamiento visual emergente a gran escala: pueden resolver tareas de visión para las que no fueron entrenados. Este puede ser el "momento GPT" para la visión. Desglosemos esto 👇
Para empezar, ¿por qué creer que los modelos de video podrían desarrollar razonamiento visual? Algo similar ocurrió con el texto. Solíamos entrenar modelos específicos para cada tarea, pero ahora, los LLMs tienen una comprensión general del lenguaje y pueden abordar muchas tareas para las que no fueron entrenados explícitamente. Es factible que los modelos de video puedan hacer lo mismo a gran escala.
Este documento midió más de 18,000 videos generados por Veo 3 en tareas tanto cualitativas como cuantitativas. Se encontró que Veo puede percibir, modificar y manipular el mundo visual (partiendo de imágenes + indicaciones de texto), mostrando habilidades de razonamiento tempranas para las que no fue entrenado explícitamente. Abordaremos cada categoría una por una.
👀 Percepción - cuando se le solicita, Veo puede detectar bordes e identificar objetos distintos en una escena. Esto significa que puede funcionar como un modelo de segmentación a pesar de no haber sido entrenado para esa tarea, lo que tiene algunas implicaciones interesantes a posteriori. 1) "Añade un punto azul brillante en la punta de la rama en la que está sentado el guacamayo. El ojo del guacamayo se vuelve de un rojo brillante. Todo lo demás se vuelve negro absoluto." 2) "La bola azul comienza a brillar instantáneamente. Perspectiva de cámara estática."
🌐 Modelado - Veo puede modelar el mundo (y los principios que lo rigen) basado en esta percepción. Demuestra un fuerte dominio de la física - cosas como la resistencia del aire y la flotabilidad, fenómenos ópticos como la refracción y la reflexión, y la mezcla de colores. 1) "La mano suelta el objeto" 2) "Una esfera de metal pulido gigante rueda por la habitación"
🤏 Manipulación - Veo puede manipular el mundo visual basado en esta percepción y modelado. Esto permite tareas de edición de imágenes de cero disparos - piensa en cosas como composición de escenas, eliminación de fondos, transferencia de estilo, o incluso manipulación hábil. 1) "Usa el sentido común y haz que las dos manos robóticas unidas a los brazos abran el tarro, como lo haría un humano." 2) "Convierte este selfie en una foto profesional para LinkedIn."
🤔 Razonamiento visual - todas las habilidades anteriores resultan en razonamiento. Esto se mide al dar al modelo desafíos basados en la visión que requieren razonamiento paso a paso. Piensa en hacer analogías, resolver laberintos o rompecabezas, usar herramientas o recorrer un gráfico. 1) "Sin cruzar ningún límite negro, el ratón gris de la esquina navega hábilmente por el laberinto caminando alrededor hasta que encuentra el queso amarillo." 2) "Modifica la cuadrícula inferior derecha para adherirse a la regla establecida por las otras cuadrículas. Puedes llenar celdas, limpiar celdas o cambiar el color de una celda."
Aquí está la gran noticia: el razonamiento visual está mejorando con el tiempo. El rendimiento en muchas de estas tareas aumentó de manera significativa entre Veo 2 y Veo 3. Incluí algunos ejemplos a continuación. Resumen: "Si estás esperando física precisa en modelos de video, mantente en la fila" 😂
232