Познакомьтесь с LFM2-8B-A1B, нашим первым устройством Mixture-of-Experts (MoE)! 🐘 > LFM2-8B-A1B — это лучший MoE на устройстве по качеству и скорости. > Производительность модели класса 3B-4B с до 5 раз более быстрой инференцией на ЦП и ГП. > Квантованные варианты удобно помещаются на высококлассные телефоны, планшеты и ноутбуки. Обеспечение быстрых, приватных, с низкой задержкой приложений на современных телефонах, планшетах, ноутбуках и встроенных системах. 1/n 🧵
LFM2-8B-A1B обладает большей емкостью знаний, чем конкурентные модели, и обучен предоставлять качественные выводы в различных областях. Включая: > Знания > Следование инструкциям > Математика > Перевод языков 2/n
Архитектура. Большинство исследований MoE сосредоточено на облачных моделях в условиях пакетного обслуживания большого масштаба. Для приложений на устройствах ключевым моментом является оптимизация задержки и потребления энергии при строгих требованиях к памяти. LFM2-8B-A1B является одной из первых моделей, которая ставит под сомнение общее мнение о том, что архитектура MoE неэффективна при меньших размерах параметров. LFM2-8B-A1B позволяет немного увеличить объем памяти в обмен на более высокое качество, сохраняя при этом низкую задержку и потребление энергии. LFM2‑8B-A1B сохраняет быструю основу LFM2 и вводит разреженные сети прямой передачи MoE, чтобы добавить представительную емкость, не увеличивая значительно активный вычислительный путь. > Основа LFM2: 18 управляемых коротких сверток и 6 блоков GQA. > Размер: 8,3B всего параметров, 1,5B активных параметров. > Размещение MoE: За исключением первых двух слоев, все слои включают блок MoE. Первые два слоя остаются плотными для обеспечения стабильности. > Гранулярность экспертов: 32 эксперта на блок MoE, с применением 4 активных экспертов на токен. Эта конфигурация обеспечивает значительное повышение качества по сравнению с конфигурациями с более низкой гранулярностью, сохраняя при этом быструю маршрутизацию и переносимые ядра. > Маршрутизатор: Нормализованное сигмоидное управление с адаптивными смещениями маршрутизации для лучшего балансирования нагрузки и динамики обучения. 3/n
На всех устройствах с CPU LFM2-8B-A1B значительно быстрее, чем самые быстрые варианты Qwen3-1.7B, IBM Granite 4.0 и других. 4/n
В дополнение к интеграции LFM2-8B-A1B в llama.cpp и ExecuTorch для проверки эффективности вывода на устройствах только с ЦП, мы также интегрировали модель в vLLM для развертывания на GPU как в режиме одиночного запроса, так и в режиме онлайн-пакетов. Наша модель 8B LFM2 MoE не только превосходит модели сопоставимого размера на ЦП, но и показывает отличные результаты по сравнению с теми же моделями на GPU (1xH100) с полной компиляцией CUDA-графа во время декодирования и поэтапным CUDA-графом во время предварительной настройки. 5/n
54,43K