Mă întreb dacă MiniMax bros vor accepta public înfrângerile când vor avansa pe poziția #3. A fost enervant cum s-au lăudat cu presupusa eșec a scalării NSA și cu decizia lor genială de a merge pe GQA (și nici măcar GQA inteligent ca în StepFun). Model rapid, scump cu atenție slabă.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)12 feb., 12:43
oricum, acesta este un upgrade masiv față de V3.2, pentru că acesta nu era nici pe departe competitiv cu Gemini 3 *Flash*, care începea să se destrame din cauza secvențelor 2K. Acesta probabil rămâne > 95% în zona de 120K.
Nu le reproșez decizia tehnică propriu-zisă, oricum sunt bineveniți să facă ca ceilalți și să treacă la DSA/hybrid MLA (sau orice altceva). Focusul lor cu M2 a fost clar pe date și antrenament, și au făcut progrese uriașe acolo. Dar era enervant.
581