Eu me pergunto se os MiniMax bros vão publicamente aceitar a derrota quando avançarem para o #3. Tem sido irritante como eles se gabarão sobre o suposto fracasso da escalabilidade da NSA e sua decisão genial de optar pelo GQA (e nem mesmo um GQA inteligente como no StepFun). Modelo rápido e caro com atenção fraca.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)Há 11 horas
de qualquer forma, esta é uma atualização massiva em relação ao V3.2, porque aquele não estava nem perto de ser competitivo com o Gemini 3 *Flash*, começando a desmoronar em sequências de 2K. Este provavelmente se mantém > 95% na zona de 120K.
Não tenho nada contra a decisão técnica real deles, de qualquer forma, estão à vontade para fazer como os outros e mudar para DSA/MLA híbrido (ou qualquer outra coisa). O foco deles com o M2 tem sido claramente dados e treinamento, e eles fizeram um progresso enorme nessa área. Mas foi irritante.
519