阿里巴巴扩展了其Qwen3.5模型家族,新增了3款——27B型号尤为突出,在人工智能分析指数中得分42分,且与其规模8-25倍的开放权重模型相当 @Alibaba_Qwen在本月初发布的397B旗舰机型外,扩展了Qwen3.5系列,推出了三款新型号:Qwen3.5 27B(密度高,智能指数得分42)、Qwen3.5 122B A10B(MoE,42)和Qwen3.5 35B A3B(MoE,37)。这两种 MoE(专家混合)模型每次前向传递只激活总参数的一小部分(分别为 10B 的 122B 和 ~3B 的 35B)。智力指数是我们的综合指标,包含10项评估,涵盖一般推理、代理任务、编码和科学推理。 所有型号均为Apache 2.0许可,原生支持262K上下文,并且在阿里巴巴通过Qwen3 2507更新将指令和推理检查点分开后,回归了原始Qwen3的统一思维/非思考混合架构。 推理变体的主要基准测试结果: † Qwen 3.5 27B 在智力指数中得分 42,是 230B 以下最聪明的模型。最近且尺寸相近的型号是GLM-4.7-Flash(总31B,3B活跃),得分30。等效智能的开放权重模型在总参数方面大8-25倍:MiniMax-M2.5(230B,42)、DeepSeek V3.2(685B,42)和GLM-4.7(357B,42)。在FP8精度下,存储模型权重需要~27GB,而在4位量化中,你可以使用配备16GB+内存的笔记本级硬件 † Qwen3.5 27B 在 GDPval-AA(代理现实世界工作任务)中得分为 1205,与更大型模型齐名。作为背景介绍,MiniMax-M2.5得分1206,GLM-4.7(推理)得分1200,DeepSeek V3.2(推理)得分1194。这对于一个27B参数模型尤为显著,表明其规模下具有强大的代理能力。GDPval-AA测试模型涵盖44个职业和9个主要行业的真实任务 † AA-全知在Qwen3.5系列中仍是相对弱点,主要由准确率较低而非幻觉率驱动。Qwen3.5 27B 在 AA-Omnisense 上得分为-42,与 MiniMax-M2.5(-40)相当,但落后于 DeepSeek v3.2(-21)和 GLM-4.7(-35)。尽管Qwen3.5 27B的幻觉率(80%)低于同类(GLM-4.7 90%,MiniMax 89%,DeepSeek 82%),但其准确率也较低,为21%,而DeepSeek V3.2为34%,GLM-4.7为29%。这很可能是模型规模的结果——我们普遍观察到,总参数越多的模型在AA-Omniscience中准确率表现更好,因为更广泛的知识回忆受益于更大的参数数 † Qwen3.5 27B 的智能程度相当于 Qwen 3.5 122B A10B。122B A10B 是一种专家混合模型,每次前传仅激活其 122B 总参数中的 10B。27B模型在GDPval-AA中领先(1205 Elo对1145 Elo),在TerminalBench略有优势(+1.5 pp),而122B模型在SciCode(+2.5 p.p.)、HLE(+1.2 p.p.)中领先,且幻觉率较低(全知 -40 对比 -42) † Qwen3.5 35B A3B(推理,37)是最智能的模型,拥有~3B活跃参数,领先GLM-4.7-Flash(30个)7个百分点。该~3B活跃类别的其他型号包括Qwen3 Coder Next(共80B,28台)、Qwen3 Next 80B A3B(27台)和NVIDIA Nemotron 3 Nano 30B A3B(24台) † Qwen3.5 27B使用了9800万个输出令牌运行智能指数,通过阿里云API花费~299美元。与同智能的型号相比,这明显高于同智能的型号:MiniMax-M2.5(56M)、DeepSeek V3.2(61M),甚至更大型的Qwen3.5 397B(86M)。 其他信息: † 上下文窗口:262K 代币(通过 YaRN 可扩展至 100 万) † 许可:Apache 2.0 † API定价(阿里云):397亿美元:0.60美元/3.60美元,122亿美元:0.40美元/3.20美元,27亿美元:0.30美元/2.40美元,35亿A3B:每100万个输入/输出代币0.25美元/2.00美元
Qwen3.5 27B 在其模型规模上以代理能力而脱颖而出。在 GDPval-AA 上的 Elo 为 1205,它与总参数量多出 8-25 倍的模型相匹配,并且尽管其规模约小 14 倍,但仍仅比 397B 旗舰(1208)低 3 分。
在总参数不超过40B的开放权重模型中,Qwen3.5 27B和35B A3B在智能指数中脱颖而出,成为明显的领导者。在这个规模类别中,最智能的下一个模型是GLM-4.7-Flash (30)
在以下位置比较完整的 Qwen3.5 家族与其他领先模型: Qwen3.5 27B HuggingFace 仓库:
3.61K