一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

GLM-5 是新的领先开放重量型号！GLM-5在开放权重模型中领先人工分析智能指数，并在GDPval-AA（我们专注于经济价值工作任务的代理基准指标）上较GLM-4.7有显著提升 GLM-5是@Zai_org自GLM-4.5以来的首个新架构——GLM-4.5、4.6和4.7型号均为355B总量/32B专家级活跃参数混合。GLM-5的扩展范围为总744B/40B活跃值，并集成了DeepSeek Sparse Attention。这使得GLM-5的参数数量更接近DeepSeek V3家族（总671B/37B活跃）和Moonshot的Kimi K2系列（1T，32B活跃）。不过，GLM-5 的精度达到 BF16，总容量约为 ~1.5TB——比 DeepSeek V3 和近期的 Kimi K2 型号更大，这些型号分别以 FP8 和 INT4 精度原生发布。主要要点： † GLM-5在智力指数上得分50分，成为新的公开重量领先者，高于GLM-4.7的42分——这得益于能动表现和知识/幻觉的提升，提升了8分。这是首次有开放权重模型在人工智能分析指数v4.0中获得50分及以上的分数，标志着专有模型与开放权重模型之间的差距显著缩小。它在其他前沿开放式重量机型之上，如Kimi K2.5、MiniMax 2.1和DeepSeek V3.2。 † GLM-5在开权重模型中获得了最高的人工分析代理指数得分，得分为63，整体排名第三。这得益于GDPval-AA的强劲表现，这是我们在知识工作任务中从准备演示文稿、数据分析到视频剪辑的主要指标。GLM-5的GDPval-AA等级为1412，仅次于Claude Opus 4.6和GPT-5.2（xhigh）。GLM-5代表了开放重量模型在现实经济价值工作任务中表现的显著提升 GLM-5在AA-全知指数上有显著提升，主要原因是幻觉减少。GLM-5在AA-Omniscience指数中得分为-1——相比GLM-4.7（推理，-36）提升了35分。这主要得益于与GLM-4.7相比，幻觉率降低了56 p.p（推理）。GLM-5通过更频繁地戒断来实现这一点，并且在测试模型中幻觉程度最低 † GLM-5 使用了 ~1.1 亿个输出令牌来运行智力指数，而 GLM-4.7 的输出令牌为 ~1.7亿，尽管大多数评估得分较高，但这一指标显著减少。这使得GLM-5更接近智能与输出令牌图表的边界，但与Opus 4.6相比，令牌效率较低主要型号细节： † 上下文窗口：20万个代币，相当于GLM-4.7 多模态：仅支持文本输入和输出——Kimi K2.5仍是支持图像输入的领先开放权重模型 † 规模：总参数744B，活动参数40B。自部署时，GLM-5 需要 ~1,490GB 内存以原生 BF16 精度存储权重 † 许可：麻省理工学院许可可用性：在分享本次分析时，GLM-5 已在 Z AI 的第一方 API 及多个第三方 API 上可用，如 @novita_labs（每 100 万个输入/输出代币 1 美元/3.2 美元）、@gmi_cloud（1 美元/3.2 美元）和 @DeepInfra（0.8 美元/2.56 美元），均符合 FP8 精度 † 训练令牌：Z AI还表示，预训练数据量已从23T增加到28.5T。

GLM-5 在 AA-全知指数上表现出改善，得益于更低的幻觉。这意味着该模型在回答它不知道的问题时更加谨慎。

完整结果的详细信息

GLM-5 HuggingFace 仓库：欲了解更多信息，请访问：

12.11K