Ich frage mich, ob die MiniMax-Brüder öffentlich die Niederlage akzeptieren werden, wenn sie auf Platz #3 aufsteigen. Es war nervig, wie sie sich über das angebliche Scheitern des NSA-Scalings und ihre geniale Entscheidung, sich für GQA zu entscheiden (und nicht einmal für cleveres GQA wie in StepFun), lustig gemacht haben. Schnelles, teures Modell mit schwacher Aufmerksamkeit.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)12. Feb., 12:43
In jedem Fall ist dies ein massives Upgrade gegenüber V3.2, da dieses nicht annähernd wettbewerbsfähig mit Gemini 3 *Flash* war und bei 2K-Sequenzen zu zerfallen begann. Dieses hier bleibt wahrscheinlich > 95% im 120K-Bereich.
Ich halte die eigentliche technische Entscheidung nicht gegen sie, sie sind jedenfalls willkommen, es wie die anderen zu machen und auf DSA/hybrides MLA (oder etwas anderes) umzuschalten. Ihr Fokus bei M2 lag eindeutig auf Daten und Training, und sie haben dort eine Menge Fortschritte gemacht. Aber es war ärgerlich.
585