Alibaba Group & các đối tác công bố MMR1: Cách mạng hóa lý luận đa phương thức với ít dữ liệu hơn! MMR1 giới thiệu Sampling Nhận thức Biến thiên (VAS) để tinh chỉnh RL ổn định. Giải quyết tối ưu hóa không ổn định & dữ liệu chất lượng cao khan hiếm. Phát hành các tập dữ liệu mở khổng lồ (~1.6M CoT, 15k RL QA) & các mô hình (3B, 7B, 32B) cho cộng đồng.