Alibaba telah memperluas keluarga model Qwen3.5 dengan 3 model baru - model 27B menonjol, mencetak 42 pada Indeks Kecerdasan Analisis Buatan dan mencocokkan model bobot terbuka 8-25x ukurannya @Alibaba_Qwen telah memperluas keluarga Qwen3.5 dengan tiga model baru bersama flagship 397B yang dirilis awal bulan ini: Qwen3.5 27B (Dense, skor 42 pada Indeks Intelijen), Qwen3.5 122B A10B (MoE, 42), dan Qwen3.5 35B A3B (MoE, 37). Kedua model MoE (Mixture-of-Experts) hanya mengaktifkan sebagian kecil dari total parameter per lintasan maju (masing-masing 10B dari 122B dan ~3B dari 35B). Indeks Kecerdasan adalah metrik sintesis kami yang menggabungkan 10 evaluasi yang mencakup penalaran umum, tugas agen, pengkodean, dan penalaran ilmiah. Semua model berlisensi Apache 2.0, secara native mendukung konteks 262K, dan kembali ke arsitektur hibrida pemikiran/non-berpikir terpadu dari Qwen3 asli, setelah Alibaba pindah ke pos pemeriksaan Instruksi dan Penalaran yang terpisah dengan pembaruan Qwen3 2507. Hasil pembandingan utama untuk varian penalaran: ➤ Qwen3.5 27B mendapat skor 42 pada Indeks Kecerdasan dan merupakan model paling cerdas di bawah 230B. Model terdekat dengan ukuran yang sama adalah GLM-4.7-Flash (total 31B, 3B aktif) yang mendapat skor 30. Model bobot terbuka dengan kecerdasan setara 8-25x lebih besar dalam hal parameter total: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42), dan GLM-4.7 (357B, 42). Dalam presisi FP8 dibutuhkan ~27GB untuk menyimpan bobot model, sedangkan dalam kuantisasi 4-bit Anda dapat menggunakan perangkat keras berkualitas laptop dengan RAM 16GB+ ➤ Qwen3.5 27B mendapat skor 1205 pada GDPval-AA (Agentic Real-World Work Tasks), menempatkannya di samping model yang lebih besar. Untuk konteks, skor MiniMax-M2.5 1206, skor GLM-4.7 (Penalaran) 1200, dan skor DeepSeek V3.2 (Penalaran) 1194. Ini sangat penting untuk model parameter 27B dan menunjukkan kemampuan agen yang kuat untuk ukurannya. GDPval-AA menguji model pada tugas dunia nyata di 44 pekerjaan dan 9 industri utama ➤ AA-Omniscience tetap menjadi kelemahan relatif di seluruh keluarga Qwen3.5, terutama didorong oleh akurasi yang lebih rendah daripada tingkat halusinasi. Qwen3.5 27B mencetak -42 pada AA-Omniscience, sebanding dengan MiniMax-M2.5 (-40) tetapi di belakang DeepSeek V3.2 (-21) dan GLM-4.7 (-35). Meskipun tingkat halusinasi Qwen3.5 27B (80%) lebih rendah daripada rekan-rekan (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), akurasinya juga lebih rendah pada 21% vs 34% untuk DeepSeek V3.2 dan 29% untuk GLM-4.7. Ini kemungkinan merupakan konsekuensi dari ukuran model - kami umumnya mengamati bahwa model dengan lebih banyak parameter total berkinerja lebih baik pada akurasi di AA-Omniscience, karena pengetahuan yang lebih luas mengingat manfaat dari jumlah parameter yang lebih besar ➤ Qwen3.5 27B setara dengan Qwen3.5 122B A10B. 122B A10B adalah model Mixture-of-Experts yang hanya mengaktifkan 10B dari total parameter 122B per lintasan maju. Model 27B memimpin dalam GDPval-AA (1205 Elo vs 1145 Elo) dan sedikit di TerminalBench (+1,5 p.p.), sedangkan model 122B memimpin pada SciCode (+2.5 p.p.), HLE (+1.2 p.p.), dan memiliki tingkat halusinasi yang lebih rendah (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) adalah model paling cerdas dengan parameter aktif ~3B, 7 poin di depan GLM-4.7-Flash (30). Model lain dalam kategori aktif ~3B ini termasuk Qwen3 Coder Next (total 80B, 28), Qwen3 Next 80B A3B (27), dan NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B menggunakan 98 juta token keluaran untuk menjalankan Indeks Intelijen, dengan biaya ~$299 melalui Alibaba Cloud API. Ini adalah penggunaan token yang sangat tinggi dibandingkan dengan model dengan kecerdasan yang sama: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), dan bahkan Qwen3.5 397B (86M) yang lebih besar. Informasi lainnya: ➤ Jendela konteks: 262K token (dapat diperpanjang hingga 1M melalui YaRN) ➤ Lisensi: Apache 2.0 ➤ Harga API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 per 1M token input/output
Qwen3.5 27B menonjol karena kemampuan agen pada ukuran modelnya. Dengan Elo 1205 pada GDPval-AA, ia cocok dengan model dengan parameter total 8-25x lebih banyak dan membuntuti unggulan 397B (1208) hanya dengan 3 poin meskipun ~14x lebih kecil.
Di antara model bobot terbuka dengan parameter total 40B atau kurang, Qwen3.5 27B dan 35B A3B menonjol sebagai pemimpin yang jelas dalam Indeks Intelijen. Model paling cerdas berikutnya dalam kategori ukuran ini adalah GLM-4.7-Flash (30)
Bandingkan keluarga Qwen3.5 lengkap dengan model terkemuka lainnya di: Qwen3.5 27B Repositori HuggingFace:
3,64K