يعجبني الطريقة التي قررنا بها أن Multimodal تعني فقط "نص + صورة داخل ، نص خارج" وأي مجموعة طريقة أخرى هي "omni"