我想知道当MiniMax兄弟晋级到#3时,他们是否会公开承认失败。他们对NSA扩展的所谓失败和选择GQA的“天才”决定的自鸣得意真让人烦。快速、昂贵的模型却注意力薄弱。
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)10 小时前
无论如何,这比 V3.2 是一次巨大的升级,因为 V3.2 在与 Gemini 3 *Flash* 的竞争中根本不具备竞争力,在 2K 序列时就开始崩溃。而这个版本很可能在 120K 区域保持 > 95%。
我并不对他们的实际技术决策持有异议,反正他们可以像其他人一样切换到DSA/混合MLA(或其他任何东西)。他们在M2上的重点显然是数据和训练,并且在这方面取得了巨大的进展。 但这确实让人感到烦恼。
511