Møt LFM2-8B-A1B, vår første Mixture-of-Experts (MoE)! 🐘 > LFM2-8B-A1B er den beste MoE på enheten når det gjelder både kvalitet og hastighet. > Ytelsen til en 3B-4B-modellklasse, med opptil 5 ganger raskere slutningsprofil på CPU-er og GPU-er. > Quantized-varianter passer komfortabelt på avanserte telefoner, nettbrett og bærbare datamaskiner. Muliggjør raske, private applikasjoner med lav ventetid på tvers av moderne telefoner, nettbrett, bærbare datamaskiner og innebygde systemer. 1/n 🧵
LFM2-8B-A1B har større kunnskapskapasitet enn konkurrerende modeller og er opplært til å gi kvalitetsslutning på tvers av en rekke funksjoner. Inklusive: > kunnskap > Instruksjon følgende > matematikk > Språklig oversettelse 2/n
Arkitektur. Det meste av MoE-forskning fokuserer på skymodeller i storskala batchserveringsinnstillinger. For applikasjoner på enheten er nøkkelen å optimalisere ventetid og energiforbruk under strenge minnekrav. LFM2-8B-A1B er en av de første modellene som utfordrer den vanlige oppfatningen om at MoE-arkitekturen ikke er effektiv ved mindre parameterstørrelser. LFM2-8B-A1B gjør det mulig å bytte et litt større minnefotavtrykk for høyere kvalitet samtidig som den beholder lav ventetid og energiforbruk. LFM2-8B-A1B holder LFM2 rask ryggrad og introduserer sparsomme MoE-feed-forward-nettverk for å legge til representasjonskapasitet uten å øke den aktive databehandlingsbanen betydelig. > LFM2 Backbone: 18 inngjerdede korte konvolusjonsblokker og 6 GQA-blokker. > Størrelse: 8,3 milliarder totale parametere, 1,5 milliarder aktive parametere. > MoE-plassering: Med unntak av de to første lagene, inkluderer alle lag en MoE-blokk. De to første lagene forblir tette for stabilitetsformål. > Ekspertgranularitet: 32 eksperter per MoE-blokk, med topp-4 aktive eksperter brukt per token. Denne konfigurasjonen gir et sterkt kvalitetsløft i forhold til konfigurasjoner med lavere granularitet, samtidig som den opprettholder rask ruting og bærbare kjerner. > ruter: Normalisert sigmoid gating med adaptive rutingsskjevheter for bedre lastbalansering og treningsdynamikk. 3/n
På tvers av enheter på CPU er LFM2-8B-A1B betydelig raskere enn de raskeste variantene av Qwen3-1.7B, IBM Granite 4.0 og andre. 4/n
I tillegg til å integrere LFM2-8B-A1B på llama.cpp og ExecuTorch for å validere slutningseffektivitet på CPU-enheter, har vi også integrert modellen i vLLM for å distribuere på GPU i både enkeltforespørsel og online batchinnstillinger. Vår 8B LFM2 MoE-modell overgår ikke bare modeller i sammenlignbar størrelse på CPU, men utmerker seg også mot de samme modellene på GPU (1xH100) med full CUDA-grafkompilering under dekoding og stykkevis CUDA-graf under forhåndsutfylling. 5/n
54,43K