Alibaba a élargi sa famille de modèles Qwen3.5 avec 3 nouveaux modèles - le modèle 27B se distingue, obtenant un score de 42 sur l'Indice d'Analyse de l'Intelligence Artificielle et égalant des modèles à poids ouverts de 8 à 25 fois sa taille @Alibaba_Qwen a élargi la famille Qwen3.5 avec trois nouveaux modèles aux côtés du modèle phare 397B lancé plus tôt ce mois-ci : le Qwen3.5 27B (Dense, obtenant un score de 42 sur l'Indice d'Intelligence), le Qwen3.5 122B A10B (MoE, 42) et le Qwen3.5 35B A3B (MoE, 37). Les deux modèles MoE (Mixture-of-Experts) n'activent qu'une fraction des paramètres totaux par passage avant (10B de 122B et ~3B de 35B respectivement). L'Indice d'Intelligence est notre métrique de synthèse incorporant 10 évaluations couvrant le raisonnement général, les tâches agentiques, le codage et le raisonnement scientifique. Tous les modèles sont sous licence Apache 2.0, prennent en charge nativement 262K de contexte et reviennent à l'architecture hybride de pensée/non-pensée unifiée de l'original Qwen3, après qu'Alibaba soit passé à des points de contrôle séparés pour l'Instruction et le Raisonnement avec les mises à jour Qwen3 2507. Principaux résultats de benchmarking pour les variantes de raisonnement : ➤ Le Qwen3.5 27B obtient un score de 42 sur l'Indice d'Intelligence et est le modèle le plus intelligent sous 230B. Le modèle le plus proche de taille similaire est GLM-4.7-Flash (31B au total, 3B actifs) qui obtient un score de 30. Les modèles à poids ouverts d'intelligence équivalente sont 8 à 25 fois plus grands en termes de paramètres totaux : MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) et GLM-4.7 (357B, 42). En précision FP8, il faut ~27 Go pour stocker les poids du modèle, tandis qu'en quantification 4 bits, vous pouvez utiliser du matériel de qualité ordinateur portable avec 16 Go+ de RAM ➤ Le Qwen3.5 27B obtient un score de 1205 sur GDPval-AA (Tâches de Travail Réelles Agentiques), le plaçant aux côtés de modèles plus grands. Pour le contexte, MiniMax-M2.5 obtient 1206, GLM-4.7 (Raisonnement) obtient 1200, et DeepSeek V3.2 (Raisonnement) obtient 1194. Cela est particulièrement notable pour un modèle de 27B de paramètres et suggère une forte capacité agentique pour sa taille. GDPval-AA teste les modèles sur des tâches réelles à travers 44 professions et 9 grandes industries ➤ AA-Omniscience reste une faiblesse relative à travers la famille Qwen3.5, principalement due à une précision inférieure plutôt qu'à un taux d'hallucination. Le Qwen3.5 27B obtient -42 sur AA-Omniscience, comparable à MiniMax-M2.5 (-40) mais derrière DeepSeek V3.2 (-21) et GLM-4.7 (-35). Bien que le taux d'hallucination du Qwen3.5 27B (80%) soit inférieur à celui des pairs (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), sa précision est également inférieure à 21% contre 34% pour DeepSeek V3.2 et 29% pour GLM-4.7. Cela est probablement une conséquence de la taille du modèle - nous avons généralement observé que les modèles avec plus de paramètres totaux obtiennent de meilleurs résultats en précision dans AA-Omniscience, car un rappel de connaissances plus large bénéficie de comptes de paramètres plus importants ➤ Le Qwen3.5 27B est équivalemment intelligent au Qwen3.5 122B A10B. Le 122B A10B est un modèle Mixture-of-Experts qui n'active que 10B de ses 122B de paramètres totaux par passage avant. Le modèle 27B mène en GDPval-AA (1205 Elo contre 1145 Elo) et légèrement sur TerminalBench (+1,5 p.p.), tandis que le modèle 122B mène sur SciCode (+2,5 p.p.), HLE (+1,2 p.p.), et a un taux d'hallucination plus bas (Omniscience -40 contre -42) ➤ Le Qwen3.5 35B A3B (Raisonnement, 37) est le modèle le plus intelligent avec ~3B de paramètres actifs, 7 points devant GLM-4.7-Flash (30). D'autres modèles dans cette catégorie d'environ 3B actifs incluent Qwen3 Coder Next (80B au total, 28), Qwen3 Next 80B A3B (27), et NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Le Qwen3.5 27B a utilisé 98M de tokens de sortie pour exécuter l'Indice d'Intelligence, coûtant environ 299 $ via l'API Alibaba Cloud. Cela est remarquablement élevé en termes d'utilisation de tokens par rapport aux modèles d'intelligence similaire : MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), et même le plus grand Qwen3.5 397B (86M). Autres informations : ➤ Fenêtre de contexte : 262K tokens (extensible à 1M via YaRN) ➤ Licence : Apache 2.0 ➤ Tarification API (Alibaba Cloud) : 397B : 0,60 $ / 3,60 $, 122B : 0,40 $ / 3,20 $, 27B : 0,30 $ / 2,40 $, 35B A3B : 0,25 $ / 2,00 $ par 1M de tokens d'entrée/sortie
Qwen3.5 27B se distingue par sa capacité agentique à sa taille de modèle. Avec un Elo de 1205 sur GDPval-AA, il égalise des modèles avec 8 à 25 fois plus de paramètres au total et ne se laisse distancer que de 3 points par le modèle phare de 397B (1208), malgré une taille d'environ 14 fois plus petite.
Parmi les modèles à poids ouverts avec 40 milliards de paramètres au total ou moins, Qwen3.5 27B et 35B A3B se distinguent comme les leaders clairs de l'Index d'Intelligence. Le modèle le plus intelligent suivant dans cette catégorie de taille est GLM-4.7-Flash (30)
Comparez la famille complète Qwen3.5 avec d'autres modèles leaders sur : Dépôt HuggingFace Qwen3.5 27B :
3,64K