Alibaba Group та партнери представили MMR1: революція в мультимодальному міркуванні з меншою кількістю даних! MMR1 представляє технологію дискретизації з урахуванням дисперсії (VAS) для стабільного точного налаштування RL. Бореться з нестабільною оптимізацією та дефіцитом високоякісних даних. Випуск масштабних відкритих наборів даних (~1,6 млн CoT, 15k RL QA) та моделей (3B, 7B, 32B) для спільноти.