Découvrez LFM2-8B-A1B, notre premier Mixture-of-Experts (MoE) sur appareil ! 🐘 > LFM2-8B-A1B est le meilleur MoE sur appareil en termes de qualité et de vitesse. > Performance d'une classe de modèle 3B-4B, avec un profil d'inférence jusqu'à 5x plus rapide sur CPU et GPU. > Les variantes quantifiées s'adaptent confortablement sur les téléphones haut de gamme, les tablettes et les ordinateurs portables. Permet des applications rapides, privées et à faible latence sur les téléphones modernes, les tablettes, les ordinateurs portables et les systèmes embarqués. 1/n 🧵
LFM2-8B-A1B a une capacité de connaissance supérieure à celle des modèles concurrents et est entraîné pour fournir des inférences de qualité dans une variété de capacités. Y compris : > Connaissance > Suivi des instructions > Mathématiques > Traduction linguistique 2/n
Architecture. La plupart des recherches sur MoE se concentrent sur des modèles cloud dans des environnements de traitement par lots à grande échelle. Pour les applications sur appareil, l'essentiel est d'optimiser la latence et la consommation d'énergie sous des exigences de mémoire strictes. LFM2-8B-A1B est l'un des premiers modèles à remettre en question la croyance commune selon laquelle l'architecture MoE n'est pas efficace avec des tailles de paramètres plus petites. LFM2-8B-A1B permet d'échanger une empreinte mémoire légèrement plus grande contre une qualité supérieure tout en conservant une faible latence et une consommation d'énergie. LFM2‑8B-A1B conserve le backbone rapide LFM2 et introduit des réseaux feed-forward MoE épars pour ajouter une capacité de représentation sans augmenter significativement le chemin de calcul actif. > Backbone LFM2 : 18 blocs de convolution courts avec portes et 6 blocs GQA. > Taille : 8,3B de paramètres au total, 1,5B de paramètres actifs. > Placement MoE : À l'exception des deux premières couches, toutes les couches incluent un bloc MoE. Les deux premières couches restent denses pour des raisons de stabilité. > Granularité des experts : 32 experts par bloc MoE, avec les 4 experts actifs les plus performants appliqués par token. Cette configuration offre un fort gain de qualité par rapport aux configurations de granularité inférieure tout en maintenant un routage rapide et des noyaux portables. > Routeur : Gating sigmoïde normalisé avec des biais de routage adaptatifs pour un meilleur équilibrage de charge et des dynamiques d'entraînement. 3/n
Sur les appareils utilisant le CPU, LFM2-8B-A1B est considérablement plus rapide que les variantes les plus rapides de Qwen3-1.7B, IBM Granite 4.0, et d'autres. 4/n
En plus d'intégrer LFM2-8B-A1B sur llama.cpp et ExecuTorch pour valider l'efficacité de l'inférence sur des appareils uniquement CPU, nous avons également intégré le modèle dans vLLM pour le déployer sur GPU dans des configurations à requête unique et en lot en ligne. Notre modèle LFM2 MoE de 8B non seulement surpasse les modèles de taille comparable sur CPU, mais excelle également contre ces mêmes modèles sur GPU (1xH100) avec une compilation complète de graphe CUDA pendant le décodage et un graphe CUDA par morceaux pendant le pré-remplissage. 5/n
54,41K