Цікаво, чи MiniMax Bros публічно програють, коли піднімуться до #3. Дратує, як вони хвалилися нібито провалом масштабування NSA і своїм геніальним рішенням обрати GQA (і навіть не розумного GQA, як у StepFun). Швидка, дорога модель із слабкою увагою.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)23 години тому
у будь-якому разі це величезне покращення порівняно з V3.2, бо той був далеко не конкурентним із Gemini 3 *Flash*, почавши розвалитися через 2K послідовності. Цей, ймовірно, залишиться > 95% у зоні 120K.
Я не тримаю на них зла за технічне рішення, але вони можуть зробити, як інші, і перейти на DSA/гібридний MLA (або щось інше). Їхня увага в M2 явно була зосереджена на даних і тренуванні, і вони досягли значного прогресу в цьому напрямку. Але це дратувало.
566