Mi chiedo se i MiniMax bros prenderanno pubblicamente la sconfitta quando avanzeranno al #3. È stato fastidioso come si siano vantati del presunto fallimento della scalabilità NSA e della loro geniale decisione di optare per GQA (e nemmeno un GQA intelligente come in StepFun). Modello veloce e costoso con attenzione debole.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)8 ore fa
in ogni caso questo è un enorme aggiornamento rispetto a V3.2, perché quello non era nemmeno lontanamente competitivo con Gemini 3 *Flash*, iniziando a crollare con sequenze da 2K. Questo probabilmente rimane > 95% nella zona delle 120K.
Non tengo contro di loro la decisione tecnica effettiva, comunque sono liberi di fare come gli altri e passare a DSA/MLA ibrido (o qualsiasi altra cosa). Il loro focus con M2 è stato chiaramente sui dati e sull'addestramento, e hanno fatto un sacco di progressi in questo senso. Ma è stato fastidioso.
507