Alibaba розширила свою модель Qwen3.5 трьома новими моделями — модель 27B виділяється, отримавши 42 бали в Індексі штучного аналізу інтелекту та відповідаючи моделям з відкритими вагами у 8-25 разів більшими за розміром @Alibaba_Qwen розширив сімейство Qwen3.5 трьома новими моделями разом із флагманським 397B, який випущений на початку цього місяця: Qwen3.5 27B (щільність, 42 бали за індексом інтелекту), Qwen3.5 122B A10B (MoE, 42) та Qwen3.5 35B A3B (MoE, 37). Дві моделі MoE (Mix-of-Experts) активують лише частку від загальної кількості параметрів за один прямий прохід (10B з 122B і ~3B з 35B відповідно). Індекс інтелекту — це наша синтезна метрика, що включає 10 оцінок, що охоплюють загальне мислення, агентні завдання, кодування та наукове мислення. Усі моделі ліцензовані на Apache 2.0, нативно підтримують контекст 262K і повертаються до гібридної архітектури уніфікованого мислення/немислення з оригінального Qwen3, після того як Alibaba перейшла на окремі контрольні точки Інструкції та Reasoning з оновленнями Qwen3 2507. Ключові результати бенчмаркінгу для варіантів міркування: ➤ Qwen3.5 27B має 42 бали за індексом інтелекту і є найрозумнішою моделлю з 230B. Найближча модель подібного розміру — GLM-4.7-Flash (загалом 31B, 3B активний), яка набрала 30 балів. Відкриті моделі еквівалентного інтелекту у 8-25 разів більші за загальними параметрами: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) та GLM-4.7 (357B, 42). У точності FP8 зберігається ~27GB для зберігання ваг моделей, тоді як у 4-бітній квантуванні можна використовувати апаратне забезпечення якості ноутбука з 16GB+ оперативної пам'яті ➤ Qwen3.5 27B отримує 1205 балів за GDPval-AA (Agentic Real-World Work Tasks), що ставить його поруч із більшими моделями. Для контексту: MiniMax-M2.5 має 1206 балів, GLM-4.7 (Reasoning) — 1200, а DeepSeek V3.2 (Reasoning) — 1194. Це особливо помітно для моделі параметрів 27B і свідчить про потужні агентні можливості для її розміру. GDPval-AA тестує моделі на реальних завданнях у 44 професіях і 9 основних галузях ➤ AA-Всезнання залишається відносною слабкістю в сімействі Qwen3.5, зумовленою переважно нижчою точністю, а не рівнем галюцинацій. Qwen3.5 27B оцінює -42 на AA-Omniscience, що порівняно з MiniMax-M2.5 (-40), але поступається DeepSeek V3.2 (-21) та GLM-4.7 (-35). Хоча рівень галюцинацій у Qwen3.5 27B (80%) нижчий, ніж у конкурентів (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), точність також нижча — 21% проти 34% у DeepSeek V3.2 і 29% у GLM-4.7. Це, ймовірно, наслідок розміру моделі — ми зазвичай спостерігали, що моделі з більшою кількістю загальних параметрів краще працюють за точністю в AA-Omniscience, оскільки ширше пам'ятання знань виграє від більшої кількості параметрів ➤ Qwen3.5 27B еквівалентно інтелектний Qwen3.5 122B A10B. 122B A10B — це модель Mix-of-Experts, яка активує лише 10B із 122B загальних параметрів за один прямий проход. Модель 27B лідирує за GDPval-AA (1205 Elo проти 1145 Elo) і трохи на TerminalBench (+1.5 p.p.), тоді як модель 122B лідирує за SciCode (+2.5 p.p.), HLE (+1.2 p.p.) і має нижчий рівень галюцинацій (Omniscience -40 проти -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) — найрозумніша модель з активними параметрами ~3B, на 7 пунктів попереду GLM-4.7-Flash (30). Інші моделі в цій активній категорії ~3B включають Qwen3 Coder Next (всього 80B, 28), Qwen3 Next 80B A3B (27) та NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B використовував 98M вихідних токенів для запуску Індексу Інтелекту, вартість яких становила ~$299 через API Alibaba Cloud. Це помітно високе використання токенів порівняно з моделями з подібним інтелектом: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) і навіть більший Qwen3.5 397B (86M). Інша інформація: ➤ Контекстне вікно: 262K токенів (можна розширити до 1M через YaRN) ➤ Ліцензія: Apache 2.0 ➤ Ціноутворення API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 за 1M токенів введення/виведення
Qwen3.5 27B вирізняється агентськими можливостями на розмірі моделі. З Elo 1205 на GDPval-AA він відповідає моделям із загальними параметрами у 8-25 разів і відстає від флагмана 397B (1208) лише на 3 бали, незважаючи на те, що він ~14 разів менший.
Серед моделей відкритих ваг із загальними параметрами 40B або менше, Qwen3.5, 27B та 35B A3B вирізняються як явні лідери в індексі інтелекту. Наступна за інтелектуальністю модель у цій категорії розмірів — GLM-4.7-Flash (30)
Порівняйте повне сімейство Qwen3.5 з іншими провідними моделями за адресою: Qwen3.5 27B Репозиторій HuggingFace:
3,64K