Jeg lurer på om MiniMax-brødrene offentlig vil ta tapet når de går videre til #3. Det har vært irriterende hvordan de har skrytt av den påståtte fiaskoen med NSA-skalering og deres geniale beslutning om å gå for GQA (og ikke engang smart GQA som i StepFun). Rask, dyr modell med svak oppmerksomhet.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)19 timer siden
uansett er dette en enorm oppgradering over V3.2, fordi den var ikke i nærheten av konkurransedyktig med Gemini 3 *Flash*, og begynte å falle fra hverandre etter 2K-sekvenser. Denne holder seg sannsynligvis > 95 % inn i 120K-sonen.
Jeg holder ikke den faktiske tekniske avgjørelsen mot dem, uansett er de velkomne til å gjøre som de andre og bytte til DSA/hybrid MLA (eller noe annet). Fokuset deres med M2 har tydeligvis vært data og trening, og de har gjort store fremskritt der. Men det var irriterende.
523