我想知道當 MiniMax 兄弟晉升到 #3 時,他們是否會公開承認失敗。他們對 NSA 擴展的所謂失敗和他們選擇 GQA(甚至不是像 StepFun 那樣聰明的 GQA)的天才決定感到得意,這讓人感到厭煩。快速、昂貴的模型卻注意力薄弱。
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)8 小時前
無論如何,這對 V3.2 來說是一個巨大的升級,因為那個版本根本無法與 Gemini 3 *Flash* 競爭,在 2K 序列時開始崩潰。這個版本可能在 120K 區域內保持 > 95%。
我不會對他們的實際技術決策心懷不滿,無論如何,他們可以像其他人一樣轉向DSA/混合MLA(或其他任何東西)。他們在M2上的重點顯然是數據和訓練,並且在這方面取得了大量進展。 但這真的讓人感到煩躁。
509