O GLM-5 é o novo modelo líder de pesos abertos! O GLM-5 lidera o Índice de Inteligência de Análise Artificial entre os modelos de pesos abertos e faz grandes avanços em relação ao GLM-4.7 no GDPval-AA, nosso benchmark agentic focado em tarefas de trabalho economicamente valiosas. O GLM-5 é a primeira nova arquitetura da @Zai_org desde o GLM-4.5 - cada um dos modelos GLM-4.5, 4.6 e 4.7 tinha 355B no total / 32B de mistura de parâmetros ativos de modelos de especialistas. O GLM-5 escala para 744B no total / 40B ativos e integra a Atenção Esparsa DeepSeek. Isso coloca o GLM-5 mais em linha com a contagem de parâmetros da família DeepSeek V3 (671B no total / 37B ativos) e da família Kimi K2 da Moonshot (1T no total, 32B ativos). No entanto, o GLM-5 é lançado em precisão BF16, com um tamanho total de ~1,5TB - maior que o DeepSeek V3 e os recentes modelos Kimi K2 que foram lançados nativamente em precisão FP8 e INT4, respectivamente. Principais conclusões: ➤ O GLM-5 pontua 50 no Índice de Inteligência e é o novo líder em pesos abertos, subindo do score de 42 do GLM-4.7 - um salto de 8 pontos impulsionado por melhorias no desempenho agentic e conhecimento/alucinação. Esta é a primeira vez que um modelo de pesos abertos alcança uma pontuação de 50 ou mais no Índice de Inteligência de Análise Artificial v4.0, representando um fechamento significativo da lacuna entre modelos de pesos proprietários e abertos. Ele se coloca acima de outros modelos de pesos abertos de fronteira, como Kimi K2.5, MiniMax 2.1 e DeepSeek V3.2. ➤ O GLM-5 alcança a maior pontuação no Índice de Análise Artificial Agentic entre modelos de pesos abertos, com uma pontuação de 63, classificando-se em terceiro lugar no geral. Isso é impulsionado por um forte desempenho no GDPval-AA, nossa métrica principal para desempenho agentic geral em tarefas de trabalho de conhecimento, desde a preparação de apresentações e análise de dados até a edição de vídeo. O GLM-5 tem um ELO de GDPval-AA de 1412, apenas abaixo do Claude Opus 4.6 e GPT-5.2 (xhigh). O GLM-5 representa um aumento significativo no desempenho dos modelos de pesos abertos em tarefas de trabalho economicamente valiosas no mundo real. ➤ O GLM-5 mostra uma grande melhoria no Índice AA-Omniscience, impulsionada pela redução da alucinação. O GLM-5 pontua -1 no Índice AA-Omniscience - uma melhoria de 35 pontos em comparação com o GLM-4.7 (Raciocínio, -36). Isso é impulsionado por uma redução de 56 p.p na taxa de alucinação em comparação com o GLM-4.7 (Raciocínio). O GLM-5 alcança isso abstendo-se mais frequentemente e tem o nível mais baixo de alucinação entre os modelos testados. ➤ O GLM-5 usou ~110M de tokens de saída para executar o Índice de Inteligência, em comparação com os ~170M de tokens de saída do GLM-4.7, uma diminuição significativa apesar de pontuações mais altas na maioria das avaliações. Isso aproxima o GLM-5 da fronteira do gráfico de Inteligência vs. Tokens de Saída, mas é menos eficiente em tokens em comparação com o Opus 4.6. Detalhes principais do modelo: ➤ Janela de contexto: 200K tokens, equivalente ao GLM-4.7. Multimodalidade: Apenas entrada e saída de texto - Kimi K2.5 continua a ser o modelo de pesos abertos líder a suportar entrada de imagem. ➤ Tamanho: 744B de parâmetros totais, 40B de parâmetros ativos. Para autoimplantação, o GLM-5 exigirá ~1.490GB de memória para armazenar os pesos em precisão nativa BF16. ➤ Licenciamento: Licença MIT. Disponibilidade: No momento de compartilhar esta análise, o GLM-5 está disponível na API de primeira parte da Z AI e em várias APIs de terceiros, como @novita_labs ($1/$3.2 por 1M de tokens de entrada/saída), @gmi_cloud ($1/$3.2) e @DeepInfra ($0.8/$2.56), em precisão FP8. ➤ Tokens de Treinamento: A Z AI também indicou que aumentou o volume de dados de pré-treinamento de 23T para 28,5T de tokens.
O GLM-5 demonstra uma melhoria no Índice AA-Omniscience, impulsionada por uma menor alucinação. Isso significa que o modelo está a abster-se mais de responder a perguntas que não sabe.
Análise dos resultados completos
Repositório GLM-5 HuggingFace: Para mais informações, visite:
21,54K