Grupa Alibaba i partnerzy ujawniają MMR1: Rewolucjonizując multimodalne rozumowanie przy mniejszej ilości danych! MMR1 wprowadza próbkowanie uwzględniające wariancję (VAS) do stabilnego dostrajania RL. Radzi sobie z niestabilną optymalizacją i niedoborem wysokiej jakości danych. Udostępnia ogromne otwarte zbiory danych (~1,6M CoT, 15k RL QA) i modele (3B, 7B, 32B) dla społeczności.