Quando si addestrano modelli fondazionali multimodali omni, mi piace sempre tornare al primo agente generalista rilasciato da @scott_e_reed, @NandoDF e il team di DeepMind, rilasciato prima di chatGPT a maggio 2022. Un modello da 1,2 miliardi, Gato, non è solo multimodale, ma è anche un policy generalista multi-task e multi-embodiment. "Può giocare ad Atari, fare didascalie per le immagini, chattare, impilare blocchi con un braccio robotico reale e molto altro, decidendo in base al suo contesto se emettere testo, torques articolari, pressioni di pulsanti o altri token." Nando ha twittato "Game over" dopo questo rilascio!