Khi đào tạo các mô hình nền tảng đa phương thức, tôi luôn thích quay lại với tác nhân tổng quát đầu tiên được phát hành bởi @scott_e_reed, @NandoDF và đội ngũ tại DeepMind, được phát hành trước chatGPT vào tháng 5 năm 2022. Một mô hình 1.2B, Gato, không chỉ đa phương thức, mà còn là một chính sách tổng quát đa nhiệm và đa hình thức. "Nó có thể chơi Atari, chú thích hình ảnh, trò chuyện, xếp chồng các khối bằng một cánh tay robot thực và nhiều hơn nữa, quyết định dựa trên ngữ cảnh của nó xem có nên xuất văn bản, mô-men xoắn khớp, nhấn nút, hay các token khác hay không." Nando đã tweet "Game over" sau khi phát hành này!