Alibaba Group e parceiros apresentam o MMR1: Revolucionando o raciocínio multimodal com menos dados! O MMR1 introduz a Amostragem Consciente de Variância (VAS) para ajuste fino estável de RL. Enfrenta a otimização instável e a escassez de dados de alta qualidade. Lançando enormes conjuntos de dados abertos (~1,6M CoT, 15k RL QA) e modelos (3B, 7B, 32B) para a comunidade.