Saya suka bagaimana kami memutuskan bahwa multimodal hanya berarti "teks + gambar masuk, teks keluar" dan kombinasi modalitas lainnya adalah "omni"