一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

阿里巴巴扩展了其Qwen3.5模型家族，新增了3款——27B型号尤为突出，在人工智能分析指数中得分42分，且与其规模8-25倍的开放权重模型相当 @Alibaba_Qwen在本月初发布的397B旗舰机型外，扩展了Qwen3.5系列，推出了三款新型号：Qwen3.5 27B（密度高，智能指数得分42）、Qwen3.5 122B A10B（MoE，42）和Qwen3.5 35B A3B（MoE，37）。这两种 MoE（专家混合）模型每次前向传递只激活总参数的一小部分（分别为 10B 的 122B 和 ~3B 的 35B）。智力指数是我们的综合指标，包含10项评估，涵盖一般推理、代理任务、编码和科学推理。所有型号均为Apache 2.0许可，原生支持262K上下文，并且在阿里巴巴通过Qwen3 2507更新将指令和推理检查点分开后，回归了原始Qwen3的统一思维/非思考混合架构。推理变体的主要基准测试结果： † Qwen 3.5 27B 在智力指数中得分 42，是 230B 以下最聪明的模型。最近且尺寸相近的型号是GLM-4.7-Flash（总31B，3B活跃），得分30。等效智能的开放权重模型在总参数方面大8-25倍：MiniMax-M2.5（230B，42）、DeepSeek V3.2（685B，42）和GLM-4.7（357B，42）。在FP8精度下，存储模型权重需要~27GB，而在4位量化中，你可以使用配备16GB+内存的笔记本级硬件 † Qwen3.5 27B 在 GDPval-AA（代理现实世界工作任务）中得分为 1205，与更大型模型齐名。作为背景介绍，MiniMax-M2.5得分1206，GLM-4.7（推理）得分1200，DeepSeek V3.2（推理）得分1194。这对于一个27B参数模型尤为显著，表明其规模下具有强大的代理能力。GDPval-AA测试模型涵盖44个职业和9个主要行业的真实任务 † AA-全知在Qwen3.5系列中仍是相对弱点，主要由准确率较低而非幻觉率驱动。Qwen3.5 27B 在 AA-Omnisense 上得分为-42，与 MiniMax-M2.5（-40）相当，但落后于 DeepSeek v3.2（-21）和 GLM-4.7（-35）。尽管Qwen3.5 27B的幻觉率（80%）低于同类（GLM-4.7 90%，MiniMax 89%，DeepSeek 82%），但其准确率也较低，为21%，而DeepSeek V3.2为34%，GLM-4.7为29%。这很可能是模型规模的结果——我们普遍观察到，总参数越多的模型在AA-Omniscience中准确率表现更好，因为更广泛的知识回忆受益于更大的参数数 † Qwen3.5 27B 的智能程度相当于 Qwen 3.5 122B A10B。122B A10B 是一种专家混合模型，每次前传仅激活其 122B 总参数中的 10B。27B模型在GDPval-AA中领先（1205 Elo对1145 Elo），在TerminalBench略有优势（+1.5 pp），而122B模型在SciCode（+2.5 p.p.）、HLE（+1.2 p.p.）中领先，且幻觉率较低（全知 -40 对比 -42） † Qwen3.5 35B A3B（推理，37）是最智能的模型，拥有~3B活跃参数，领先GLM-4.7-Flash（30个）7个百分点。该~3B活跃类别的其他型号包括Qwen3 Coder Next（共80B，28台）、Qwen3 Next 80B A3B（27台）和NVIDIA Nemotron 3 Nano 30B A3B（24台） † Qwen3.5 27B使用了9800万个输出令牌运行智能指数，通过阿里云API花费~299美元。与同智能的型号相比，这明显高于同智能的型号：MiniMax-M2.5（56M）、DeepSeek V3.2（61M），甚至更大型的Qwen3.5 397B（86M）。其他信息： † 上下文窗口：262K 代币（通过 YaRN 可扩展至 100 万） † 许可：Apache 2.0 † API定价（阿里云）：397亿美元：0.60美元/3.60美元，122亿美元：0.40美元/3.20美元，27亿美元：0.30美元/2.40美元，35亿A3B：每100万个输入/输出代币0.25美元/2.00美元

Qwen3.5 27B 在其模型规模上以代理能力而脱颖而出。在 GDPval-AA 上的 Elo 为 1205，它与总参数量多出 8-25 倍的模型相匹配，并且尽管其规模约小 14 倍，但仍仅比 397B 旗舰（1208）低 3 分。

在总参数不超过40B的开放权重模型中，Qwen3.5 27B和35B A3B在智能指数中脱颖而出，成为明显的领导者。在这个规模类别中，最智能的下一个模型是GLM-4.7-Flash (30)

在以下位置比较完整的 Qwen3.5 家族与其他领先模型： Qwen3.5 27B HuggingFace 仓库：

3.61K