Zastanawiam się, czy MiniMax bros publicznie przyznają się do porażki, gdy awansują na #3. Było irytujące, jak chwalili się rzekomą porażką skalowania NSA i swoją genialną decyzją, by wybrać GQA (i to nie nawet sprytne GQA jak w StepFun). Szybki, drogi model z słabą uwagą.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)12 lut, 12:43
w każdym razie to jest ogromna aktualizacja w porównaniu do V3.2, ponieważ tamta nie była nawet blisko konkurencyjna z Gemini 3 *Flash*, zaczynając się rozpadać przy 2K sekwencjach. Ta prawdopodobnie utrzyma się > 95% w strefie 120K.
Nie trzymam im za złe tej rzeczywistej decyzji technicznej, w każdym razie mogą zrobić jak inni i przejść na DSA/hybrydowe MLA (lub cokolwiek innego). Ich skupienie na M2 wyraźnie dotyczyło danych i treningu, i poczynili tam ogromne postępy. Ale to było irytujące.
567