Alibaba Group ja kumppanit julkistavat MMR1:n: Mullistaa multimodaalisen päättelyn vähemmällä datalla! MMR1 esittelee varianssitietoisen näytteenoton (VAS) vakaaseen RL-hienosäätöön. Käsittelee epävakaata optimointia ja niukkoja korkealaatuisia tietoja. Massiivisten avoimien tietojoukkojen (~1,6 miljoonaa CoT, 15 tuhatta RL laadunvarmistusta) ja mallien (3B, 7B, 32B) julkaiseminen yhteisölle.