مجموعة علي بابا وشركاؤها يكشفون النقاب عن MMR1: إحداث ثورة في التفكير متعدد الوسائط ببيانات أقل! يقدم MMR1 أخذ العينات المدركة للتباين (VAS) لضبط RL المستقر. يعالج التحسين غير المستقر والبيانات النادرة عالية الجودة. إطلاق مجموعات بيانات مفتوحة ضخمة (~ 1.6 مليون CoT ، 15 ألف RL QA) ونماذج (3B ، 7B ، 32B) للمجتمع.