Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Познакомьтесь с LFM2-8B-A1B, нашим первым устройством Mixture-of-Experts (MoE)! 🐘
> LFM2-8B-A1B — это лучший MoE на устройстве по качеству и скорости.
> Производительность модели класса 3B-4B с до 5 раз более быстрой инференцией на ЦП и ГП.
> Квантованные варианты удобно помещаются на высококлассные телефоны, планшеты и ноутбуки.
Обеспечение быстрых, приватных, с низкой задержкой приложений на современных телефонах, планшетах, ноутбуках и встроенных системах.
1/n 🧵

LFM2-8B-A1B обладает большей емкостью знаний, чем конкурентные модели, и обучен предоставлять качественные выводы в различных областях. Включая:
> Знания
> Следование инструкциям
> Математика
> Перевод языков
2/n

Архитектура. Большинство исследований MoE сосредоточено на облачных моделях в условиях пакетного обслуживания большого масштаба. Для приложений на устройствах ключевым моментом является оптимизация задержки и потребления энергии при строгих требованиях к памяти. LFM2-8B-A1B является одной из первых моделей, которая ставит под сомнение общее мнение о том, что архитектура MoE неэффективна при меньших размерах параметров. LFM2-8B-A1B позволяет немного увеличить объем памяти в обмен на более высокое качество, сохраняя при этом низкую задержку и потребление энергии.
LFM2‑8B-A1B сохраняет быструю основу LFM2 и вводит разреженные сети прямой передачи MoE, чтобы добавить представительную емкость, не увеличивая значительно активный вычислительный путь.
> Основа LFM2: 18 управляемых коротких сверток и 6 блоков GQA.
> Размер: 8,3B всего параметров, 1,5B активных параметров.
> Размещение MoE: За исключением первых двух слоев, все слои включают блок MoE. Первые два слоя остаются плотными для обеспечения стабильности.
> Гранулярность экспертов: 32 эксперта на блок MoE, с применением 4 активных экспертов на токен. Эта конфигурация обеспечивает значительное повышение качества по сравнению с конфигурациями с более низкой гранулярностью, сохраняя при этом быструю маршрутизацию и переносимые ядра.
> Маршрутизатор: Нормализованное сигмоидное управление с адаптивными смещениями маршрутизации для лучшего балансирования нагрузки и динамики обучения.
3/n

На всех устройствах с CPU LFM2-8B-A1B значительно быстрее, чем самые быстрые варианты Qwen3-1.7B, IBM Granite 4.0 и других.
4/n

В дополнение к интеграции LFM2-8B-A1B в llama.cpp и ExecuTorch для проверки эффективности вывода на устройствах только с ЦП, мы также интегрировали модель в vLLM для развертывания на GPU как в режиме одиночного запроса, так и в режиме онлайн-пакетов.
Наша модель 8B LFM2 MoE не только превосходит модели сопоставимого размера на ЦП, но и показывает отличные результаты по сравнению с теми же моделями на GPU (1xH100) с полной компиляцией CUDA-графа во время декодирования и поэтапным CUDA-графом во время предварительной настройки.
5/n

54,43K
Топ
Рейтинг
Избранное