Alibaba Group & partners presentan MMR1: ¡Revolucionando el razonamiento multimodal con menos datos! MMR1 introduce el muestreo consciente de la varianza (VAS) para un ajuste fino estable de RL. Aborda la optimización inestable y los escasos datos de alta calidad. Lanzamiento masivo de conjuntos de datos abiertos (~1.6M CoT, 15k RL QA) y modelos (3B, 7B, 32B) para la comunidad.