Lorsque je forme des modèles de fondation omni multimodaux, j'apprécie toujours de revenir au premier agent généraliste publié par @scott_e_reed, @NandoDF et l'équipe de DeepMind, sorti avant chatGPT en mai 2022. Un modèle de 1,2 milliard, Gato, n'est pas seulement multimodal, mais c'est une politique généraliste multi-tâches et multi-incarnations. "Il peut jouer à Atari, légender des images, discuter, empiler des blocs avec un vrai bras robotique et bien plus encore, décidant en fonction de son contexte s'il doit produire du texte, des couples de joint, des pressions de bouton ou d'autres jetons." Nando a tweeté "Game over" après cette sortie !