Alibaba Group och partners presenterar MMR1: Revolutionerar multimodalt resonemang med mindre data! MMR1 introducerar Variance-Aware Sampling (VAS) för stabil RL-finjustering. Tacklar instabil optimering och knappa data av hög kvalitet. Släppa massiva öppna datamängder (~1,6 M CoT, 15k RL QA) och modeller (3B, 7B, 32B) för communityn.