阿里巴巴集团及合作伙伴推出MMR1:用更少的数据革命性地改变多模态推理! MMR1引入了方差感知采样(VAS),用于稳定的强化学习微调。解决不稳定的优化和稀缺的高质量数据问题。为社区发布大量开放数据集(约160万CoT,1.5万RL QA)和模型(30亿,70亿,320亿)。