Alibaba Group und Partner präsentieren MMR1: Revolutionierung des multimodalen Denkens mit weniger Daten! MMR1 führt Variance-Aware Sampling (VAS) für stabiles RL-Fine-Tuning ein. Bekämpft instabile Optimierung und knappe hochwertige Daten. Veröffentlichung massiver offener Datensätze (~1,6M CoT, 15k RL QA) und Modelle (3B, 7B, 32B) für die Community.