Skupina Alibaba a partneři odhalují MMR1: Revoluční multimodální uvažování s menším množstvím dat! MMR1 zavádí vzorkování s ohledem na odchylku (VAS) pro stabilní jemné doladění RL. Řeší nestabilní optimalizaci a nedostatek vysoce kvalitních dat. Uvolnění masivních otevřených datových sad (~1,6 milionu CoT, 15 tisíc RL QA) a modelů (3B, 7B, 32B) pro komunitu.