Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Зустрічайте LFM2-8B-A1B, нашу першу суміш експертів на пристрої (MoE)! 🐘
> LFM2-8B-A1B є найкращим мобільним пристроєм як за якістю, так і за швидкістю.
> Продуктивність класу моделей 3B-4B з до 5 разів швидшим профілем логічного висновку на центральних і графічних процесорах.
> Quantized варіанти зручно розміщуються на телефонах, планшетах і ноутбуках високого класу.
Увімкнення швидких, конфіденційних програм із низькою затримкою на сучасних телефонах, планшетах, ноутбуках і вбудованих системах.
1/п 🧵

LFM2-8B-A1B має більший потенціал знань, ніж конкурентні моделі, і навчений забезпечувати якісне висновування за допомогою різноманітних можливостей. Включаючи:
> Знання
> Подальша інструкція
> Математика
> Переклад на мову
2/п

Архітектура. Більшість досліджень МНС зосереджені на хмарних моделях в умовах великомасштабного пакетного обслуговування. Для додатків на пристрої ключовим моментом є оптимізація затримки та споживання енергії відповідно до жорстких вимог до пам'яті. LFM2-8B-A1B є однією з перших моделей, яка кидає виклик поширеній думці про те, що архітектура MoE не ефективна при менших розмірах параметрів. Модель LFM2-8B-A1B дає змогу обмінювати дещо більший обсяг пам'яті на вищу якість, зберігаючи при цьому низьку затримку та енергоспоживання.
LFM2-8B-A1B зберігає швидку магістраль LFM2 і вводить розріджені мережі прямого зв'язку MoE для збільшення репрезентативної пропускної здатності без значного збільшення активного обчислювального шляху.
> Магістраль LFM2: 18 закритих коротких згорткових блоків і 6 блоків GQA.
> Розмір: 8.3B загальні параметри, 1.5B активні параметри.
> Розміщення MoE: За винятком перших двох шарів, всі шари включають блок MoE. Перші два шари залишаються щільними з метою стійкості.
> Деталізація експертів: 32 експерти на блок MoE, з топ-4 активними експертами на токен. Ця конфігурація забезпечує сильний приріст якості порівняно з конфігураціями з нижчою деталізацією, зберігаючи при цьому швидку маршрутизацію та портативні ядра.
> Маршрутизатор: Нормалізоване сігмовидної м'язи з адаптивними зміщеннями маршрутизації для кращого балансування навантаження та динаміки тренування.
3/п

На всіх пристроях з процесором LFM2-8B-A1B значно швидший, ніж найшвидші варіанти Qwen3-1.7B, IBM Granite 4.0 та інші.
4/п

Окрім інтеграції LFM2-8B-A1B на llama.cpp та ExecuTorch для перевірки ефективності висновків на пристроях, що працюють лише з процесором, ми також інтегрували модель у vLLM для розгортання на графічному процесорі як за одним запитом, так і за пакетними онлайн-налаштуваннями.
Наша модель 8B LFM2 MoE не тільки перевершує аналогічні моделі за розміром процесора, але й перевершує аналогічні моделі на GPU (1xH100) з повною компіляцією CUDA-графа під час декодування та кусковим CUDA-графом під час попереднього заповнення.
5/п

54,42K
Найкращі
Рейтинг
Вибране