Alibaba Group & partners revelam MMR1: Revolucionando o raciocínio multimodal com menos dados! O MMR1 introduz a Variance-Aware Sampling (VAS) para ajuste fino estável de RL. Lida com otimização instável e dados escassos de alta qualidade. Lançando conjuntos de dados abertos massivos (~1.6M CoT, 15k RL QA) e modelos (3B, 7B, 32B) para a comunidade.