Alibaba Group en partners onthullen MMR1: Revolutionaire multimodale redenering met minder data! MMR1 introduceert Variance-Aware Sampling (VAS) voor stabiele RL fine-tuning. Tackelt onstabiele optimalisatie en schaarse hoogwaardige data. Vrijgeven van enorme open datasets (~1,6M CoT, 15k RL QA) en modellen (3B, 7B, 32B) voor de gemeenschap.