GLM-5 是新的領先開放權重模型!GLM-5 在開放權重模型中領導人工分析智能指數,並在 GDPval-AA 上相較於 GLM-4.7 取得了巨大的進步,這是我們專注於經濟價值工作任務的代理基準。 GLM-5 是 @Zai_org 自 GLM-4.5 以來的第一個新架構 - GLM-4.5、4.6 和 4.7 模型都是 355B 總計 / 32B 活躍參數的專家混合模型。GLM-5 擴展到 744B 總計 / 40B 活躍,並整合了 DeepSeek 稀疏注意力。這使得 GLM-5 更接近 DeepSeek V3 家族的參數數量(671B 總計 / 37B 活躍)和 Moonshot 的 Kimi K2 家族(1T 總計,32B 活躍)。然而,GLM-5 以 BF16 精度發布,總大小約為 1.5TB - 大於 DeepSeek V3 和最近以 FP8 和 INT4 精度原生發布的 Kimi K2 模型。 關鍵要點: ➤ GLM-5 在智能指數上得分 50,是新的開放權重領導者,較 GLM-4.7 的 42 分上升了 8 分,這是由於在代理性能和知識/幻覺方面的改進。這是第一個在人工分析智能指數 v4.0 上達到 50 分或以上的開放權重模型,代表著專有模型和開放權重模型之間的差距顯著縮小。它的排名高於其他前沿開放權重模型,如 Kimi K2.5、MiniMax 2.1 和 DeepSeek V3.2。 ➤ GLM-5 在開放權重模型中達到了最高的人工分析代理指數得分,得分為 63,總體排名第三。這是由於在 GDPval-AA 中的強勁表現,我們的主要指標是針對知識工作任務的代理性能,從準備演示文稿和數據分析到視頻編輯。GLM-5 的 GDPval-AA ELO 為 1412,僅次於 Claude Opus 4.6 和 GPT-5.2(xhigh)。GLM-5 代表了開放權重模型在現實世界經濟價值工作任務上的顯著提升。 ➤ GLM-5 在 AA-全知指數上顯示出大幅改善,這是由於幻覺的減少。GLM-5 在 AA-全知指數上得分 -1,較 GLM-4.7(推理,-36)改善了 35 分。這是由於與 GLM-4.7(推理)相比,幻覺率減少了 56 個百分點。GLM-5 通過更頻繁地避免幻覺,並在測試的模型中達到最低的幻覺水平來實現這一點。 ➤ GLM-5 使用了約 110M 的輸出標記來運行智能指數,而 GLM-4.7 使用了約 170M 的輸出標記,儘管在大多數評估中得分更高,但這是一個顯著的減少。這使得 GLM-5 更接近智能與輸出標記圖表的前沿,但與 Opus 4.6 相比,標記效率較低。 關鍵模型細節: ➤ 上下文窗口:200K 標記,相當於 GLM-4.7 多模態性:僅支持文本輸入和輸出 - Kimi K2.5 仍然是支持圖像輸入的領先開放權重模型。 ➤ 大小:744B 總參數,40B 活躍參數。對於自我部署,GLM-5 將需要約 1,490GB 的內存來以原生 BF16 精度存儲權重。 ➤ 授權:MIT 許可證 可用性:在分享此分析時,GLM-5 可在 Z AI 的第一方 API 和幾個第三方 API 上使用,如 @novita_labs(每 1M 輸入/輸出標記 $1/$3.2)、@gmi_cloud($1/$3.2)和 @DeepInfra($0.8/$2.56),以 FP8 精度。 ➤ 訓練標記:Z AI 也表示已將預訓練數據量從 23T 增加到 28.5T 標記。
GLM-5 在 AA-全知指數上顯示出改善,這是由於幻覺減少。這意味著該模型在回答它不知道的問題時更加謹慎。
完整結果的詳細分析
GLM-5 HuggingFace 倉庫: 欲了解更多資訊,請造訪:
13.68K