マルチモーダルは単に「テキスト+画像入力、テキスト出力」を意味し、他のモダリティの組み合わせは「オムニ」であると決定した方法が気に入っています