Alibaba Group & Partners meluncurkan MMR1: Merevolusi penalaran multimoda dengan data yang lebih sedikit! MMR1 memperkenalkan Variance-Aware Sampling (VAS) untuk penyetelan halus RL yang stabil. Mengatasi pengoptimalan yang tidak stabil & data berkualitas tinggi yang langka. Merilis kumpulan data terbuka besar-besaran (~1.6M CoT, 15k RL QA) & model (3B, 7B, 32B) untuk komunitas.