Ontmoet LFM2-8B-A1B, onze eerste on-device Mixture-of-Experts (MoE)! 🐘 > LFM2-8B-A1B is de beste on-device MoE qua kwaliteit en snelheid. > Prestaties van een modelklasse van 3B-4B, met tot 5x snellere inferentieprofiel op CPU's en GPU's. > Gequantiseerde varianten passen comfortabel op high-end telefoons, tablets en laptops. Het mogelijk maken van snelle, privé, low-latency toepassingen op moderne telefoons, tablets, laptops en embedded systemen. 1/n 🧵
LFM2-8B-A1B heeft een grotere kenniscapaciteit dan concurrerende modellen en is getraind om kwaliteitsinference te bieden over een verscheidenheid aan mogelijkheden. Inclusief: > Kennis > Instructies volgen > Wiskunde > Taalvertaling 2/n
Architectuur. Het meeste MoE-onderzoek richt zich op cloudmodellen in grootschalige batchverwerkingsinstellingen. Voor toepassingen op apparaten is de sleutel om de latentie en het energieverbruik te optimaliseren onder strikte geheugeneisen. LFM2-8B-A1B is een van de eerste modellen die de gangbare opvatting uitdaagt dat de MoE-architectuur niet effectief is bij kleinere parameterformaten. LFM2-8B-A1B maakt het mogelijk om een iets grotere geheugendruk te ruilen voor hogere kwaliteit, terwijl het lage latentie en energieverbruik behoudt. LFM2‑8B-A1B behoudt de snelle LFM2-backbone en introduceert spaarzame MoE-feedforwardnetwerken om representatieve capaciteit toe te voegen zonder de actieve rekensnelheid significant te verhogen. > LFM2 Backbone: 18 gated korte convolutiebakken en 6 GQA-bakken. > Grootte: 8,3B totale parameters, 1,5B actieve parameters. > MoE-plaatsing: Met uitzondering van de eerste twee lagen, bevatten alle lagen een MoE-blok. De eerste twee lagen blijven dicht voor stabiliteitsdoeleinden. > Expert granulariteit: 32 experts per MoE-blok, met top-4 actieve experts toegepast per token. Deze configuratie biedt een sterke kwaliteitsverbetering ten opzichte van lagere granulariteitsconfiguraties, terwijl snelle routering en draagbare kernels behouden blijven. > Router: Genormaliseerde sigmoid-gating met adaptieve routeringsbias voor betere load balancing en trainingsdynamiek. 3/n
Op apparaten met CPU is LFM2-8B-A1B aanzienlijk sneller dan de snelste varianten van Qwen3-1.7B, IBM Granite 4.0 en anderen. 4/n
Naast de integratie van LFM2-8B-A1B op llama.cpp en ExecuTorch om de inferentie-efficiëntie op CPU-only apparaten te valideren, hebben we het model ook geïntegreerd in vLLM om het op GPU te implementeren in zowel single-request als online gebatchte instellingen. Ons 8B LFM2 MoE-model presteert niet alleen beter dan vergelijkbare modellen van dezelfde grootte op CPU, maar overtreft ook diezelfde modellen op GPU (1xH100) met volledige CUDA-grafiekcompilatie tijdens decoderen en stukgewijze CUDA-grafiek tijdens prefill. 5/n
62,97K