Je me demande si les MiniMax bros vont publiquement encaisser la défaite lorsqu'ils passeront à la #3. C'est agaçant de les voir se vanter de l'échec supposé du scaling de la NSA et de leur décision géniale d'opter pour le GQA (et pas même un GQA intelligent comme dans StepFun). Modèle rapide et coûteux avec une attention faible.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)il y a 23 heures
de toute façon, c'est une mise à niveau massive par rapport à V3.2, car celle-ci n'était pas du tout compétitive avec Gemini 3 *Flash*, commençant à s'effondrer à partir de 2K séquences. Celle-ci reste probablement > 95% dans la zone des 120K.
Je ne leur reproche pas la décision technique en elle-même, de toute façon, ils sont libres de faire comme les autres et de passer à DSA/MLA hybride (ou à autre chose). Leur attention avec M2 a clairement été sur les données et l'entraînement, et ils ont fait énormément de progrès là-dessus. Mais c'était agaçant.
567