Интересно, признают ли братья MiniMax публично свою ошибку, когда они поднимутся на #3. Меня раздражает, как они хвастались предполагаемым провалом масштабирования NSA и своим гениальным решением выбрать GQA (и даже не таким умным GQA, как в StepFun). Быстрая, дорогая модель с слабым вниманием.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)19 часов назад
в любом случае это огромное обновление по сравнению с V3.2, потому что тот вариант не был даже близко конкурентоспособным с Gemini 3 *Flash*, начиная разваливаться на 2K последовательностях. Этот, вероятно, останется > 95% в зоне 120K.
Я не держу против них фактическое техническое решение, в любом случае они могут сделать, как и другие, и перейти на DSA/гибридный MLA (или что-то еще). Их внимание к M2 явно было сосредоточено на данных и обучении, и они добились огромного прогресса в этом. Но это было раздражающе.
523