Alibaba Group et ses partenaires dévoilent MMR1 : Révolutionner le raisonnement multimodal avec moins de données ! MMR1 introduit l'échantillonnage sensible à la variance (VAS) pour un ajustement stable du RL. S'attaque à l'optimisation instable et aux données de haute qualité rares. Publication de vastes ensembles de données ouverts (~1,6M CoT, 15k RL QA) et de modèles (3B, 7B, 32B) pour la communauté.