Ao treinar modelos de fundação multimodais omni, gosto sempre de voltar ao primeiro agente generalista lançado por @scott_e_reed, @NandoDF e a equipe da DeepMind, lançado antes do chatGPT em maio de 2022. Um modelo de 1,2B, Gato, não é apenas multimodal, mas uma política generalista de múltiplas tarefas e múltiplas incorporações. "Ele pode jogar Atari, legendar imagens, conversar, empilhar blocos com um braço robótico real e muito mais, decidindo com base em seu contexto se deve gerar texto, torques articulares, pressionar botões ou outros tokens." Nando tweetou "Fim de jogo" após este lançamento!