Alibaba Group și partenerii dezvăluie MMR1: Revoluționarea raționamentului multimodal cu mai puține date! MMR1 introduce eșantionarea conștientă de varianță (VAS) pentru reglarea fină stabilă a RL. Abordează optimizarea instabilă și datele limitate de înaltă calitate. Lansarea de seturi de date deschise masive (~1,6M CoT, 15k RL QA) și modele (3B, 7B, 32B) pentru comunitate.