Tôi tự hỏi liệu MiniMax bros có công khai nhận thất bại khi họ tiến lên vị trí #3 không. Thật phiền phức khi họ khoe khoang về sự thất bại được cho là của việc mở rộng NSA và quyết định thiên tài của họ khi chọn GQA (và không phải là GQA thông minh như trong StepFun). Mô hình nhanh, đắt tiền với sự chú ý yếu.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)12:43 12 thg 2
dù sao đi nữa, đây là một bản nâng cấp lớn so với V3.2, vì bản đó không hề cạnh tranh được với Gemini 3 *Flash*, bắt đầu bị rơi rụng ở các chuỗi 2K. Bản này có khả năng giữ > 95% vào khu vực 120K.
Tôi không giữ quyết định kỹ thuật thực sự nào chống lại họ, dù sao họ cũng được chào đón để làm như những người khác và chuyển sang DSA/MLA lai (hoặc bất cứ điều gì khác). Sự tập trung của họ với M2 rõ ràng là dữ liệu và đào tạo, và họ đã đạt được rất nhiều tiến bộ ở đó. Nhưng điều đó thật phiền phức.
587