Faceți cunoștință cu LFM2-8B-A1B, primul nostru amestec de experți (MoE) pe dispozitiv! 🐘 > LFM2-8B-A1B este cel mai bun MoE de pe dispozitiv atât în ceea ce privește calitatea, cât și viteza. > Performanța unei clase de modele 3B-4B, cu un profil de inferență de până la 5 ori mai rapid pe procesoare și GPU-uri. > Variantele cuantificate se potrivesc confortabil pe telefoane, tablete și laptopuri de ultimă generație. Permite aplicații rapide, private, cu latență redusă pe telefoane, tablete, laptopuri și sisteme încorporate moderne. 1/n 🧵
LFM2-8B-A1B are o capacitate de cunoaștere mai mare decât modelele concurente și este instruit să ofere inferență de calitate într-o varietate de capabilități. Inclusiv: > Cunoștințe > Instrucțiuni următoare > Matematică > Traducere lingvistică 2/n
Arhitectură. Majoritatea cercetărilor Ministerului Educației se concentrează pe modelele cloud în setările de servire a loturilor la scară largă. Pentru aplicațiile de pe dispozitiv, cheia este de a optimiza latența și consumul de energie în conformitate cu cerințe stricte de memorie. LFM2-8B-A1B este unul dintre primele modele care contestă credința comună că arhitectura MoE nu este eficientă la dimensiuni mai mici ale parametrilor. LFM2-8B-A1B permite schimbarea unei amprente de memorie puțin mai mari pentru o calitate superioară, păstrând în același timp latența scăzută și consumul de energie. LFM2-8B-A1B păstrează coloana vertebrală rapidă LFM2 și introduce rețele de feed-forward MoE rare pentru a adăuga capacitate de reprezentare fără a crește semnificativ calea de calcul activă. > LFM2 Backbone: 18 blocuri de convoluție scurte închise și 6 blocuri GQA. > Dimensiune: 8.3B parametri totali, 1.5B parametri activi. > amplasarea MoE: Cu excepția primelor două straturi, toate straturile includ un bloc MoE. Primele două straturi rămân dense în scopuri de stabilitate. > Granularitatea experților: 32 de experți per bloc MoE, cu primii 4 experți activi aplicați pe token. Această configurație oferă o creștere puternică a calității față de configurațiile cu granularitate mai mică, menținând în același timp rutarea rapidă și nucleele portabile. > Router: Închidere sigmoidală normalizată cu prejudecăți de rutare adaptive pentru o mai bună echilibrare a sarcinii și o dinamică de antrenament. 3/n
Pe toate dispozitivele de pe CPU, LFM2-8B-A1B este considerabil mai rapid decât cele mai rapide variante de Qwen3-1.7B, IBM Granite 4.0 și altele. 4/n
Pe lângă integrarea LFM2-8B-A1B pe llama.cpp și ExecuTorch pentru a valida eficiența inferenței pe dispozitivele numai CPU, am integrat modelul în vLLM pentru a fi implementat pe GPU atât în setări cu o singură cerere, cât și în setări online în lot. Modelul nostru 8B LFM2 MoE nu numai că depășește modelele de dimensiuni comparabile pe CPU, dar excelează și față de aceleași modele pe GPU (1xH100) cu compilare completă a graficului CUDA în timpul decodării și grafic CUDA pe bucăți în timpul precompletării. 5/n
54,42K