DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Je me demande si les MiniMax bros vont publiquement encaisser la défaite lorsqu'ils passeront à la #3. C'est agaçant de les voir se vanter de l'échec supposé du scaling de la NSA et de leur décision géniale d'opter pour le GQA (et pas même un GQA intelligent comme dans StepFun). Modèle rapide et coûteux avec une attention faible.

Je ne leur reproche pas la décision technique en elle-même, de toute façon, ils sont libres de faire comme les autres et de passer à DSA/MLA hybride (ou à autre chose). Leur attention avec M2 a clairement été sur les données et l'entraînement, et ils ont fait énormément de progrès là-dessus. Mais c'était agaçant.

567

Meilleurs

Classement

Favoris