Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ontmoet LFM2-8B-A1B, onze eerste on-device Mixture-of-Experts (MoE)! 🐘
> LFM2-8B-A1B is de beste on-device MoE qua kwaliteit en snelheid.
> Prestaties van een modelklasse van 3B-4B, met tot 5x snellere inferentieprofiel op CPU's en GPU's.
> Gequantiseerde varianten passen comfortabel op high-end telefoons, tablets en laptops.
Het mogelijk maken van snelle, privé, low-latency toepassingen op moderne telefoons, tablets, laptops en embedded systemen.
1/n 🧵

LFM2-8B-A1B heeft een grotere kenniscapaciteit dan concurrerende modellen en is getraind om kwaliteitsinference te bieden over een verscheidenheid aan mogelijkheden. Inclusief:
> Kennis
> Instructies volgen
> Wiskunde
> Taalvertaling
2/n

Architectuur. Het meeste MoE-onderzoek richt zich op cloudmodellen in grootschalige batchverwerkingsinstellingen. Voor toepassingen op apparaten is de sleutel om de latentie en het energieverbruik te optimaliseren onder strikte geheugeneisen. LFM2-8B-A1B is een van de eerste modellen die de gangbare opvatting uitdaagt dat de MoE-architectuur niet effectief is bij kleinere parameterformaten. LFM2-8B-A1B maakt het mogelijk om een iets grotere geheugendruk te ruilen voor hogere kwaliteit, terwijl het lage latentie en energieverbruik behoudt.
LFM2‑8B-A1B behoudt de snelle LFM2-backbone en introduceert spaarzame MoE-feedforwardnetwerken om representatieve capaciteit toe te voegen zonder de actieve rekensnelheid significant te verhogen.
> LFM2 Backbone: 18 gated korte convolutiebakken en 6 GQA-bakken.
> Grootte: 8,3B totale parameters, 1,5B actieve parameters.
> MoE-plaatsing: Met uitzondering van de eerste twee lagen, bevatten alle lagen een MoE-blok. De eerste twee lagen blijven dicht voor stabiliteitsdoeleinden.
> Expert granulariteit: 32 experts per MoE-blok, met top-4 actieve experts toegepast per token. Deze configuratie biedt een sterke kwaliteitsverbetering ten opzichte van lagere granulariteitsconfiguraties, terwijl snelle routering en draagbare kernels behouden blijven.
> Router: Genormaliseerde sigmoid-gating met adaptieve routeringsbias voor betere load balancing en trainingsdynamiek.
3/n

Op apparaten met CPU is LFM2-8B-A1B aanzienlijk sneller dan de snelste varianten van Qwen3-1.7B, IBM Granite 4.0 en anderen.
4/n

Naast de integratie van LFM2-8B-A1B op llama.cpp en ExecuTorch om de inferentie-efficiëntie op CPU-only apparaten te valideren, hebben we het model ook geïntegreerd in vLLM om het op GPU te implementeren in zowel single-request als online gebatchte instellingen.
Ons 8B LFM2 MoE-model presteert niet alleen beter dan vergelijkbare modellen van dezelfde grootte op CPU, maar overtreft ook diezelfde modellen op GPU (1xH100) met volledige CUDA-grafiekcompilatie tijdens decoderen en stukgewijze CUDA-grafiek tijdens prefill.
5/n

62,97K
Boven
Positie
Favorieten