Zajímalo by mě, jestli MiniMax bros veřejně přijmou porážku, až postoupí na #3. Je otravné, jak se chlubili údajným selháním škálování NSA a svým geniálním rozhodnutím jít do GQA (a ani ne do chytrého GQA jako ve StepFun). Rychlý, drahý model se slabou pozorností.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)Před 8 h
každopádně je to obrovský pokrok oproti V3.2, protože ta nebyla ani zdaleka konkurenceschopná s Gemini 3 *Flash*, začala se rozpadat kvůli 2K sekvencím. Tento pravděpodobně zůstane > 95 % v zóně 120 tisíc.
Nemám jim to za zlé, ale klidně si mohou udělat jako ostatní a přejít na DSA/hybridní MLA (nebo cokoli jiného). Jejich zaměření u M2 bylo jasně na data a výcvik, a v tom udělali velký pokrok. Ale bylo to otravné.
507