热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
GLM-5 是新的领先开放重量型号!GLM-5在开放权重模型中领先人工分析智能指数,并在GDPval-AA(我们专注于经济价值工作任务的代理基准指标)上较GLM-4.7有显著提升
GLM-5是@Zai_org自GLM-4.5以来的首个新架构——GLM-4.5、4.6和4.7型号均为355B总量/32B专家级活跃参数混合。GLM-5的扩展范围为总744B/40B活跃值,并集成了DeepSeek Sparse Attention。这使得GLM-5的参数数量更接近DeepSeek V3家族(总671B/37B活跃)和Moonshot的Kimi K2系列(1T,32B活跃)。不过,GLM-5 的精度达到 BF16,总容量约为 ~1.5TB——比 DeepSeek V3 和近期的 Kimi K2 型号更大,这些型号分别以 FP8 和 INT4 精度原生发布。
主要要点:
† GLM-5在智力指数上得分50分,成为新的公开重量领先者,高于GLM-4.7的42分——这得益于能动表现和知识/幻觉的提升,提升了8分。这是首次有开放权重模型在人工智能分析指数v4.0中获得50分及以上的分数,标志着专有模型与开放权重模型之间的差距显著缩小。它在其他前沿开放式重量机型之上,如Kimi K2.5、MiniMax 2.1和DeepSeek V3.2。
† GLM-5在开权重模型中获得了最高的人工分析代理指数得分,得分为63,整体排名第三。这得益于GDPval-AA的强劲表现,这是我们在知识工作任务中从准备演示文稿、数据分析到视频剪辑的主要指标。GLM-5的GDPval-AA等级为1412,仅次于Claude Opus 4.6和GPT-5.2(xhigh)。GLM-5代表了开放重量模型在现实经济价值工作任务中表现的显著提升
GLM-5在AA-全知指数上有显著提升,主要原因是幻觉减少。GLM-5在AA-Omniscience指数中得分为-1——相比GLM-4.7(推理,-36)提升了35分。这主要得益于与GLM-4.7相比,幻觉率降低了56 p.p(推理)。GLM-5通过更频繁地戒断来实现这一点,并且在测试模型中幻觉程度最低
† GLM-5 使用了 ~1.1 亿个输出令牌来运行智力指数,而 GLM-4.7 的输出令牌为 ~1.7亿,尽管大多数评估得分较高,但这一指标显著减少。这使得GLM-5更接近智能与输出令牌图表的边界,但与Opus 4.6相比,令牌效率较低
主要型号细节:
† 上下文窗口:20万个代币,相当于GLM-4.7
多模态:仅支持文本输入和输出——Kimi K2.5仍是支持图像输入的领先开放权重模型
† 规模:总参数744B,活动参数40B。自部署时,GLM-5 需要 ~1,490GB 内存以原生 BF16 精度存储权重
† 许可:麻省理工学院许可
可用性:在分享本次分析时,GLM-5 已在 Z AI 的第一方 API 及多个第三方 API 上可用,如 @novita_labs(每 100 万个输入/输出代币 1 美元/3.2 美元)、@gmi_cloud(1 美元/3.2 美元)和 @DeepInfra(0.8 美元/2.56 美元),均符合 FP8 精度
† 训练令牌:Z AI还表示,预训练数据量已从23T增加到28.5T。

GLM-5 在 AA-全知指数上表现出改善,得益于更低的幻觉。这意味着该模型在回答它不知道的问题时更加谨慎。

完整结果的详细信息

GLM-5 HuggingFace 仓库:
欲了解更多信息,请访问:
12.11K
热门
排行
收藏
