Mietin, ottavatko MiniMax-kaverit julkisesti voiton, kun he etenevät sijalle #3. On ollut ärsyttävää, miten he kerskasivat NSA:n skaalauksen väitetyllä epäonnistumisella ja nerokkaasta päätöksestään valita GQA (eikä edes nokkela GQA, kuten StepFunissa). Nopea, kallis malli, jossa on heikko huomio.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)22 tuntia sitten
joka tapauksessa tämä on valtava parannus verrattuna V3.2:een, koska se ei ollut lähelläkään Gemini 3:n *Flash* tasoa, joka alkoi hajota 2K-jaksojen myötä. Tämä pysyy todennäköisesti > 95 % 120K-alueella.
En pidä varsinaista teknistä päätöstä heitä vastaan, joka tapauksessa he voivat tehdä kuten muutkin ja vaihtaa DSA/hybrid-MLA:han (tai mihin tahansa muuhun). Heidän painopisteensä M2:ssa on selvästi ollut datassa ja koulutuksessa, ja he ovat edistyneet siellä valtavasti. Mutta se oli ärsyttävää.
558