Ao treinar modelos multimodais omni foundation, sempre gosto de voltar ao primeiro agente generalista lançado por @scott_e_reed, @NandoDF e equipe da DeepMind, lançado antes do chatGPT em maio de 2022. Um modelo 1.2B, Gato, não é apenas multimodal, mas uma política generalista multitarefa e multicorporificadora. "Ele pode reproduzir Atari, legendar imagens, conversar, empilhar blocos com um braço robótico real e muito mais, decidindo com base em seu contexto se deseja produzir texto, torques de articulação, pressionamentos de botão ou outros tokens." Nando twittou "Fim de jogo" após este lançamento!