Cuando entreno modelos de fundación multimodales omni, siempre disfruto volver al primer agente generalista lanzado por @scott_e_reed, @NandoDF y el equipo de DeepMind, lanzado antes de chatGPT en mayo de 2022. Un modelo de 1.2B, Gato, no solo es multimodal, sino también una política generalista de múltiples tareas y múltiples encarnaciones. "Puede jugar a Atari, subtitular imágenes, chatear, apilar bloques con un brazo robótico real y mucho más, decidiendo en función de su contexto si debe emitir texto, torques articulares, pulsaciones de botones u otros tokens." ¡Nando tuiteó "Game over" después de este lanzamiento!