Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Møt LFM2-8B-A1B, vår første Mixture-of-Experts (MoE)! 🐘
> LFM2-8B-A1B er den beste MoE på enheten når det gjelder både kvalitet og hastighet.
> Ytelsen til en 3B-4B-modellklasse, med opptil 5 ganger raskere slutningsprofil på CPU-er og GPU-er.
> Quantized-varianter passer komfortabelt på avanserte telefoner, nettbrett og bærbare datamaskiner.
Muliggjør raske, private applikasjoner med lav ventetid på tvers av moderne telefoner, nettbrett, bærbare datamaskiner og innebygde systemer.
1/n 🧵

LFM2-8B-A1B har større kunnskapskapasitet enn konkurrerende modeller og er opplært til å gi kvalitetsslutning på tvers av en rekke funksjoner. Inklusive:
> kunnskap
> Instruksjon følgende
> matematikk
> Språklig oversettelse
2/n

Arkitektur. Det meste av MoE-forskning fokuserer på skymodeller i storskala batchserveringsinnstillinger. For applikasjoner på enheten er nøkkelen å optimalisere ventetid og energiforbruk under strenge minnekrav. LFM2-8B-A1B er en av de første modellene som utfordrer den vanlige oppfatningen om at MoE-arkitekturen ikke er effektiv ved mindre parameterstørrelser. LFM2-8B-A1B gjør det mulig å bytte et litt større minnefotavtrykk for høyere kvalitet samtidig som den beholder lav ventetid og energiforbruk.
LFM2-8B-A1B holder LFM2 rask ryggrad og introduserer sparsomme MoE-feed-forward-nettverk for å legge til representasjonskapasitet uten å øke den aktive databehandlingsbanen betydelig.
> LFM2 Backbone: 18 inngjerdede korte konvolusjonsblokker og 6 GQA-blokker.
> Størrelse: 8,3 milliarder totale parametere, 1,5 milliarder aktive parametere.
> MoE-plassering: Med unntak av de to første lagene, inkluderer alle lag en MoE-blokk. De to første lagene forblir tette for stabilitetsformål.
> Ekspertgranularitet: 32 eksperter per MoE-blokk, med topp-4 aktive eksperter brukt per token. Denne konfigurasjonen gir et sterkt kvalitetsløft i forhold til konfigurasjoner med lavere granularitet, samtidig som den opprettholder rask ruting og bærbare kjerner.
> ruter: Normalisert sigmoid gating med adaptive rutingsskjevheter for bedre lastbalansering og treningsdynamikk.
3/n

På tvers av enheter på CPU er LFM2-8B-A1B betydelig raskere enn de raskeste variantene av Qwen3-1.7B, IBM Granite 4.0 og andre.
4/n

I tillegg til å integrere LFM2-8B-A1B på llama.cpp og ExecuTorch for å validere slutningseffektivitet på CPU-enheter, har vi også integrert modellen i vLLM for å distribuere på GPU i både enkeltforespørsel og online batchinnstillinger.
Vår 8B LFM2 MoE-modell overgår ikke bare modeller i sammenlignbar størrelse på CPU, men utmerker seg også mot de samme modellene på GPU (1xH100) med full CUDA-grafkompilering under dekoding og stykkevis CUDA-graf under forhåndsutfylling.
5/n

54,43K
Topp
Rangering
Favoritter