Ik vraag me af of MiniMax bros publiekelijk de L zullen nemen wanneer ze naar #3 gaan. Het is vervelend hoe ze zich hebben opgeblazen over de vermeende mislukking van NSA-scaling en hun geniale beslissing om voor GQA te kiezen (en niet eens slim GQA zoals in StepFun). Snel, duur model met zwakke aandacht.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)6 uur geleden
in ieder geval is dit een enorme upgrade ten opzichte van V3.2, omdat die niet in de buurt kwam van de concurrentie met Gemini 3 *Flash*, en begon uit elkaar te vallen bij 2K-sequenties. Deze blijft waarschijnlijk > 95% in de 120K-zone.
Ik houd de daadwerkelijke technische beslissing niet tegen hen, ze zijn hoe dan ook welkom om zoals de anderen over te stappen op DSA/hybride MLA (of iets anders). Hun focus met M2 is duidelijk op data en training geweest, en ze hebben daar een hoop vooruitgang geboekt. Maar het was vervelend.
490