GLM-5 é o novo modelo líder de pesos abertos! O GLM-5 lidera o Índice de Inteligência de Análise Artificial entre modelos de pesos abertos e obtém grandes ganhos em relação ao GLM-4,7 no GDPval-AA, nosso benchmark agente focado em tarefas de trabalho economicamente valiosas O GLM-5 é a primeira nova arquitetura da @Zai_org desde o GLM-4.5 – cada um dos modelos GLM-4.5, 4.6 e 4.7 foi composto por 355B no total / 32B de parâmetros ativos dos modelos de especialistas. O GLM-5 escala para 744B no total / 40B ativo, e integra DeepSeek Sparse Attention. Isso coloca o GLM-5 mais alinhado com a contagem de parâmetros da família DeepSeek V3 (671B no total / 37B ativos) e da família Kimi K2 da Moonshot (1T total, 32B ativos). No entanto, o GLM-5 é lançado em precisão BF16, com um total de ~1,5TB – maior que o DeepSeek V3 e os modelos mais recentes Kimi K2, lançados nativamente em precisão FP8 e INT4, respectivamente. Principais lições: ➤ GLM-5 pontua 50 no Índice de Inteligência e é o novo líder em pesos abertos, acima do 42 do GLM-4.7 – um salto de 8 pontos impulsionado por melhorias no desempenho agente e conhecimento/alucinação. Esta é a primeira vez que um modelo de pesos abertos alcança uma pontuação de 50 ou superior no Índice de Inteligência de Análise Artificial v4.0, representando um fechamento significativo da lacuna entre modelos proprietários e de pesos abertos. Ele se posiciona acima de outros modelos de peso aberto de vanguarda, como Kimi K2.5, MiniMax 2.1 e DeepSeek V3.2. ➤ O GLM-5 alcança a maior pontuação no Índice de Agente de Análise Artificial entre os modelos de pesos abertos, com uma pontuação de 63, ficando em terceiro lugar geral. Isso é impulsionado pelo forte desempenho no GDPval-AA, nossa principal métrica para o desempenho geral dos agentes em tarefas de trabalho de conhecimento, desde a preparação de apresentações e análise de dados até a edição de vídeo. O GLM-5 tem um ELO GDPval-AA de 1412, apenas abaixo do Claude Opus 4.6 e GPT-5.2 (xhigh). O GLM-5 representa um aumento significativo no desempenho dos modelos de pesos abertos em tarefas de trabalho economicamente valiosas no mundo real ➤ GLM-5 apresenta uma grande melhora em relação ao Índice AA-Oniciência, impulsionada pela redução das alucinações. O GLM-5 pontua -1 no Índice AA-Oniscience - uma melhora de 35 pontos em comparação ao GLM-4,7 (Raciocínio, -36). Isso é impulsionado por uma redução de 56 por cento na taxa de alucinações em comparação com o GLM-4,7 (Raciocínio). O GLM-5 consegue isso abstendo-se com mais frequência e apresenta o menor nível de alucinação entre os modelos testados ➤ O GLM-5 usou ~110M tokens de saída para rodar o Índice de Inteligência, comparado aos ~170M tokens de saída do GLM-4.7, uma diminuição significativa apesar das pontuações mais altas na maioria das avaliações. Isso aproxima o GLM-5 da fronteira do gráfico Intelligence vs. Output Tokens, mas é menos eficiente em tokens em comparação com o Opus 4.6 Detalhes principais do modelo: ➤ Janela de contexto: 200K tokens, equivalente ao GLM-4.7 Multimodalidade: apenas entrada e saída de texto - o Kimi K2.5 continua sendo o principal modelo de pesos abertos a suportar entrada de imagens ➤ Tamanho: 744B parâmetros totais, 40B parâmetros ativos. Para auto-implantação, o GLM-5 exigirá ~1.490GB de memória para armazenar os pesos com precisão nativa do BF16 ➤ Licenciamento: Licença MIT Disponibilidade: No momento de compartilhar esta análise, o GLM-5 está disponível na API de primeira parte da Z AI e em várias APIs de terceiros, como @novita_labs ($1/$3,2 por 1M de tokens de entrada/saída), @gmi_cloud ($1/$3,2) e @DeepInfra ($0,8/$2,56), em precisão FP8 ➤ Tokens de Treinamento: Z IA também indicou que aumentou o volume de dados pré-treinamento de 23T para 28,5T tokens
O GLM-5 demonstra melhora no Índice AA-Onisciente, impulsionada por uma alucinação menor. Isso significa que o modelo está se abstendo mais de responder perguntas que não conhece
Análise dos resultados completos
Repositório GLM-5 HuggingFace: Para mais informações, visite:
15,24K