アリババグループとパートナーがMMR1を発表:より少ないデータでマルチモーダル推論に革命を起こす! MMR1 では、安定した RL 微調整のための分散認識サンプリング (VAS) が導入されています。不安定な最適化と希少な高品質のデータに取り組みます。コミュニティ向けに大規模なオープンデータセット(~1.6M CoT、15k RL QA)とモデル(3B、7B、32B)をリリースします。