MiniMaxの兄弟たちは#3に進んだら公に負けを認めるのか気になります。NSAのスケーリングの失敗を自慢し、GQAを選んだという天才的な決断(しかもStepFunのような巧妙なGQAではありません)を選んだのは本当に腹立たしいです。速くて高価なモデルで、注意も弱い。
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)11時間前
いずれにせよ、これはV3.2より大幅なアップグレードです。なぜなら、あのバージョンはGemini 3の*Flash*と比べて全く競争力がなく、2Kシーケンスで崩れ始めていたからです。この作品はおそらく120K圏内>95%にとどまるでしょう。
技術的な決定自体を責めるつもりはありません。いずれにせよ、他の人たちと同じようにDSAやハイブリッドMLA(あるいは他のもの)に切り替えても構いません。M2での彼らの焦点は明らかにデータとトレーニングにあり、そこで大きな進歩を遂げていました。 でも、それはイライラした。
519