Alibaba Group и партнеры представляют MMR1: Революция в многомодальном рассуждении с меньшими объемами данных! MMR1 вводит выборку с учетом дисперсии (VAS) для стабильной донастройки RL. Решает проблемы нестабильной оптимизации и нехватки качественных данных. Выпускает огромные открытые наборы данных (~1,6M CoT, 15k RL QA) и модели (3B, 7B, 32B) для сообщества.