Alibaba Group og partnere avduker MMR1: Revolusjonerende multimodal resonnement med mindre data! MMR1 introduserer Variance-Aware Sampling (VAS) for stabil RL-finjustering. Takler ustabil optimalisering og knappe data av høy kvalitet. Utgivelse av massive åpne datasett (~1,6 millioner CoT, 15k RL QA) og modeller (3B, 7B, 32B) for fellesskapet.