Зустрічайте LFM2-8B-A1B, нашу першу суміш експертів на пристрої (MoE)! 🐘 > LFM2-8B-A1B є найкращим мобільним пристроєм як за якістю, так і за швидкістю. > Продуктивність класу моделей 3B-4B з до 5 разів швидшим профілем логічного висновку на центральних і графічних процесорах. > Quantized варіанти зручно розміщуються на телефонах, планшетах і ноутбуках високого класу. Увімкнення швидких, конфіденційних програм із низькою затримкою на сучасних телефонах, планшетах, ноутбуках і вбудованих системах. 1/п 🧵
LFM2-8B-A1B має більший потенціал знань, ніж конкурентні моделі, і навчений забезпечувати якісне висновування за допомогою різноманітних можливостей. Включаючи: > Знання > Подальша інструкція > Математика > Переклад на мову 2/п
Архітектура. Більшість досліджень МНС зосереджені на хмарних моделях в умовах великомасштабного пакетного обслуговування. Для додатків на пристрої ключовим моментом є оптимізація затримки та споживання енергії відповідно до жорстких вимог до пам'яті. LFM2-8B-A1B є однією з перших моделей, яка кидає виклик поширеній думці про те, що архітектура MoE не ефективна при менших розмірах параметрів. Модель LFM2-8B-A1B дає змогу обмінювати дещо більший обсяг пам'яті на вищу якість, зберігаючи при цьому низьку затримку та енергоспоживання. LFM2-8B-A1B зберігає швидку магістраль LFM2 і вводить розріджені мережі прямого зв'язку MoE для збільшення репрезентативної пропускної здатності без значного збільшення активного обчислювального шляху. > Магістраль LFM2: 18 закритих коротких згорткових блоків і 6 блоків GQA. > Розмір: 8.3B загальні параметри, 1.5B активні параметри. > Розміщення MoE: За винятком перших двох шарів, всі шари включають блок MoE. Перші два шари залишаються щільними з метою стійкості. > Деталізація експертів: 32 експерти на блок MoE, з топ-4 активними експертами на токен. Ця конфігурація забезпечує сильний приріст якості порівняно з конфігураціями з нижчою деталізацією, зберігаючи при цьому швидку маршрутизацію та портативні ядра. > Маршрутизатор: Нормалізоване сігмовидної м'язи з адаптивними зміщеннями маршрутизації для кращого балансування навантаження та динаміки тренування. 3/п
На всіх пристроях з процесором LFM2-8B-A1B значно швидший, ніж найшвидші варіанти Qwen3-1.7B, IBM Granite 4.0 та інші. 4/п
Окрім інтеграції LFM2-8B-A1B на llama.cpp та ExecuTorch для перевірки ефективності висновків на пристроях, що працюють лише з процесором, ми також інтегрували модель у vLLM для розгортання на графічному процесорі як за одним запитом, так і за пакетними онлайн-налаштуваннями. Наша модель 8B LFM2 MoE не тільки перевершує аналогічні моделі за розміром процесора, але й перевершує аналогічні моделі на GPU (1xH100) з повною компіляцією CUDA-графа під час декодування та кусковим CUDA-графом під час попереднього заповнення. 5/п
54,42K