¡Alibaba Group y sus socios presentan MMR1: ¡Revolucionando el razonamiento multimodal con menos datos! MMR1 introduce muestreo consciente de la varianza (VAS) para un ajuste fino estable de RL. Aborda la optimización inestable y la escasez de datos de alta calidad. Lanzando enormes conjuntos de datos abiertos (~1.6M CoT, 15k RL QA) y modelos (3B, 7B, 32B) para la comunidad.