Jag undrar om MiniMax-bröderna offentligt kommer att ta förlusten när de går till #3. Det har varit irriterande hur de skryter om det påstådda misslyckandet med NSA:s skalning och deras geniala beslut att välja GQA (och inte ens smart GQA som i StepFun). Snabb, dyr modell med svag uppmärksamhet.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)12 feb. 12:43
i vilket fall som helst är detta en enorm uppgradering jämfört med V3.2, eftersom den inte alls var konkurrenskraftig med Gemini 3 *Flash*, och började falla isär vid 2K-sekvenser. Den här stannar troligen > 95 % in i 120K-zonen.
Jag håller inte det faktiska tekniska beslutet emot dem, men de är välkomna att göra som de andra och byta till DSA/hybrid MLA (eller något annat). Deras fokus med M2 har tydligt varit data och träning, och de hade gjort stora framsteg där. Men det var irriterande.
588