Cuando entreno modelos multimodales de omnibases, siempre disfruto volviendo al primer agente generalista lanzado por @scott_e_reed, @NandoDF y equipo de DeepMind, lanzado antes de chatGPT en mayo de 2022. Un modelo 1.2B, Gato, no solo es multimodal, sino una política generalista multitarea y multi-encarnación. "Puede reproducir Atari, subtitular imágenes, chatear, apilar bloques con un brazo robótico real y mucho más, decidiendo en función de su contexto si generar texto, torques articulares, pulsaciones de botones u otros tokens". ¡Nando tuiteó "Game over" después de este lanzamiento!