Alibaba расширила свою модельную семью Qwen3.5 тремя новыми моделями - модель 27B выделяется, набирая 42 балла в Индексе Искусственного Интеллекта и соответствуя моделям с открытыми весами, которые в 8-25 раз больше по размеру. @Alibaba_Qwen расширила семью Qwen3.5 тремя новыми моделями наряду с флагманом 397B, выпущенным ранее в этом месяце: Qwen3.5 27B (Dense, набирает 42 балла в Индексе Интеллекта), Qwen3.5 122B A10B (MoE, 42) и Qwen3.5 35B A3B (MoE, 37). Две модели MoE (Смешанная Модель Экспертов) активируют только часть общих параметров за один проход (10B из 122B и ~3B из 35B соответственно). Индекс Интеллекта - это наша синтетическая метрика, включающая 10 оценок, охватывающих общее рассуждение, агентные задачи, кодирование и научное рассуждение. Все модели лицензированы по Apache 2.0, нативно поддерживают 262K контекста и возвращаются к объединенной гибридной архитектуре мышления/немышления из оригинального Qwen3, после того как Alibaba перешла на отдельные контрольные точки Инструкций и Рассуждений с обновлениями Qwen3 2507. Ключевые результаты бенчмаркинга для вариантов рассуждений: ➤ Qwen3.5 27B набирает 42 балла в Индексе Интеллекта и является самой интеллектуальной моделью среди моделей менее 230B. Ближайшая модель аналогичного размера - GLM-4.7-Flash (31B всего, 3B активных), которая набирает 30. Модели с открытыми весами эквивалентного интеллекта в 8-25 раз больше по общему количеству параметров: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) и GLM-4.7 (357B, 42). В FP8 точности требуется ~27GB для хранения весов модели, в то время как в 4-битной квантизации можно использовать оборудование качества ноутбука с 16GB+ ОЗУ. ➤ Qwen3.5 27B набирает 1205 баллов на GDPval-AA (Агентные Задачи Реального Мира), ставя его наравне с более крупными моделями. Для контекста, MiniMax-M2.5 набирает 1206, GLM-4.7 (Рассуждение) набирает 1200, а DeepSeek V3.2 (Рассуждение) набирает 1194. Это особенно примечательно для модели с 27B параметрами и предполагает сильные агентные способности для своего размера. GDPval-AA тестирует модели на реальных задачах в 44 профессиях и 9 основных отраслях. ➤ AA-Omniscience остается относительной слабостью в семье Qwen3.5, в первую очередь из-за низкой точности, а не из-за уровня галлюцинаций. Qwen3.5 27B набирает -42 на AA-Omniscience, сопоставимо с MiniMax-M2.5 (-40), но отстает от DeepSeek V3.2 (-21) и GLM-4.7 (-35). Хотя уровень галлюцинаций Qwen3.5 27B (80%) ниже, чем у аналогов (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), его точность также ниже - 21% против 34% для DeepSeek V3.2 и 29% для GLM-4.7. Это, вероятно, следствие размера модели - мы обычно наблюдали, что модели с большим количеством параметров показывают лучшие результаты по точности в AA-Omniscience, так как более широкий объем знаний выигрывает от большего количества параметров. ➤ Qwen3.5 27B по интеллекту эквивалентен Qwen3.5 122B A10B. 122B A10B - это модель Смешанной Модели Экспертов, которая активирует только 10B из своих 122B общих параметров за один проход. Модель 27B лидирует в GDPval-AA (1205 Elo против 1145 Elo) и немного на TerminalBench (+1.5 п.п.), в то время как модель 122B лидирует на SciCode (+2.5 п.п.), HLE (+1.2 п.п.) и имеет более низкий уровень галлюцинаций (Omniscience -40 против -42). ➤ Qwen3.5 35B A3B (Рассуждение, 37) является самой интеллектуальной моделью с ~3B активных параметров, на 7 пунктов опережая GLM-4.7-Flash (30). Другие модели в этой категории с ~3B активных параметров включают Qwen3 Coder Next (80B всего, 28), Qwen3 Next 80B A3B (27) и NVIDIA Nemotron 3 Nano 30B A3B (24). ➤ Qwen3.5 27B использовала 98M выходных токенов для запуска Индекса Интеллекта, стоимостью ~$299 через API Alibaba Cloud. Это заметно высокое использование токенов по сравнению с моделями аналогичного интеллекта: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) и даже более крупный Qwen3.5 397B (86M). Дополнительная информация: ➤ Окно контекста: 262K токенов (расширяемое до 1M через YaRN) ➤ Лицензия: Apache 2.0 ➤ Цены на API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 за 1M входных/выходных токенов.
Qwen3.5 27B выделяется своей агентной способностью при таком размере модели. С рейтингом Эло 1205 на GDPval-AA он сопоставим с моделями, имеющими на 8-25 раз больше параметров, и отстает от флагмана 397B (1208) всего на 3 пункта, несмотря на то, что он примерно в 14 раз меньше.
Среди открытых моделей с 40B параметрами или меньше, Qwen3.5 27B и 35B A3B выделяются как явные лидеры в Индексе Интеллекта. Следующая по интеллекту модель в этой категории размеров — GLM-4.7-Flash (30)
Сравните полное семейство Qwen3.5 с другими ведущими моделями на: Репозиторий Qwen3.5 27B HuggingFace:
3,64K