Möt LFM2-8B-A1B, vår första Mixture-of-Experts (MoE)! 🐘 > LFM2-8B-A1B är den bästa MoE på enheten när det gäller både kvalitet och hastighet. > Prestanda för en 3B-4B-modellklass, med upp till 5 gånger snabbare inferensprofil på CPU:er och GPU:er. > Quantized-varianterna passar bekvämt på avancerade telefoner, surfplattor och bärbara datorer. Möjliggör snabba, privata applikationer med låg latens på moderna telefoner, surfplattor, bärbara datorer och inbyggda system. 1/n 🧵
LFM2-8B-A1B har större kunskapskapacitet än konkurrerande modeller och är tränad för att ge kvalitetsinferens över en mängd olika funktioner. Inklusive: > Kunskap > Instruktion följande > Matematik > Översättning till språk 2/n
Arkitektur. De flesta MoE-undersökningar fokuserar på molnmodeller i storskaliga batchserveringsinställningar. För program på enheten är nyckeln att optimera latens och energiförbrukning under strikta minneskrav. LFM2-8B-A1B är en av de första modellerna som utmanar den vanliga uppfattningen att MoE-arkitekturen inte är effektiv vid mindre parameterstorlekar. LFM2-8B-A1B gör det möjligt att handla med ett något större minnesfotavtryck för högre kvalitet samtidigt som man behåller låg latens och energiförbrukning. LFM2-8B-A1B håller LFM2 snabbt stamnät och introducerar glesa MoE-feed-forward-nätverk för att lägga till representationskapacitet utan att avsevärt öka den aktiva beräkningsvägen. > LFM2 Backbone: 18 gated korta faltningsblock och 6 GQA-block. > Storlek: 8,3 miljarder totala parametrar, 1,5 miljarder aktiva parametrar. > MoE-placering: Med undantag för de två första lagren innehåller alla lager ett MoE-block. De två första lagren förblir täta av stabilitetsskäl. > Expertgranularitet: 32 experter per MoE-block, med topp 4 aktiva experter tillämpade per token. Den här konfigurationen ger en stark kvalitetsökning jämfört med konfigurationer med lägre kornighet samtidigt som snabb routning och portabla kernels bibehålls. > Router: Normaliserad sigmoid-gating med adaptiva routingförspänningar för bättre lastbalansering och träningsdynamik. 3/n
På alla enheter med CPU är LFM2-8B-A1B betydligt snabbare än de snabbaste varianterna av Qwen3-1.7B, IBM Granite 4.0 och andra. 4/n
Förutom att integrera LFM2-8B-A1B på llama.cpp och ExecuTorch för att validera inferenseffektivitet på enheter med endast CPU, har vi också integrerat modellen i vLLM för att distribuera på GPU i både en enda begäran och batchinställningar online. Vår 8B LFM2 MoE-modell överträffar inte bara modeller av jämförbar storlek på CPU utan utmärker sig också mot samma modeller på GPU (1xH100) med full CUDA-grafkompilering under avkodning och bitvis CUDA-graf under förifyllning. 5/n
54,41K