Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Möt LFM2-8B-A1B, vår första Mixture-of-Experts (MoE)! 🐘
> LFM2-8B-A1B är den bästa MoE på enheten när det gäller både kvalitet och hastighet.
> Prestanda för en 3B-4B-modellklass, med upp till 5 gånger snabbare inferensprofil på CPU:er och GPU:er.
> Quantized-varianterna passar bekvämt på avancerade telefoner, surfplattor och bärbara datorer.
Möjliggör snabba, privata applikationer med låg latens på moderna telefoner, surfplattor, bärbara datorer och inbyggda system.
1/n 🧵

LFM2-8B-A1B har större kunskapskapacitet än konkurrerande modeller och är tränad för att ge kvalitetsinferens över en mängd olika funktioner. Inklusive:
> Kunskap
> Instruktion följande
> Matematik
> Översättning till språk
2/n

Arkitektur. De flesta MoE-undersökningar fokuserar på molnmodeller i storskaliga batchserveringsinställningar. För program på enheten är nyckeln att optimera latens och energiförbrukning under strikta minneskrav. LFM2-8B-A1B är en av de första modellerna som utmanar den vanliga uppfattningen att MoE-arkitekturen inte är effektiv vid mindre parameterstorlekar. LFM2-8B-A1B gör det möjligt att handla med ett något större minnesfotavtryck för högre kvalitet samtidigt som man behåller låg latens och energiförbrukning.
LFM2-8B-A1B håller LFM2 snabbt stamnät och introducerar glesa MoE-feed-forward-nätverk för att lägga till representationskapacitet utan att avsevärt öka den aktiva beräkningsvägen.
> LFM2 Backbone: 18 gated korta faltningsblock och 6 GQA-block.
> Storlek: 8,3 miljarder totala parametrar, 1,5 miljarder aktiva parametrar.
> MoE-placering: Med undantag för de två första lagren innehåller alla lager ett MoE-block. De två första lagren förblir täta av stabilitetsskäl.
> Expertgranularitet: 32 experter per MoE-block, med topp 4 aktiva experter tillämpade per token. Den här konfigurationen ger en stark kvalitetsökning jämfört med konfigurationer med lägre kornighet samtidigt som snabb routning och portabla kernels bibehålls.
> Router: Normaliserad sigmoid-gating med adaptiva routingförspänningar för bättre lastbalansering och träningsdynamik.
3/n

På alla enheter med CPU är LFM2-8B-A1B betydligt snabbare än de snabbaste varianterna av Qwen3-1.7B, IBM Granite 4.0 och andra.
4/n

Förutom att integrera LFM2-8B-A1B på llama.cpp och ExecuTorch för att validera inferenseffektivitet på enheter med endast CPU, har vi också integrerat modellen i vLLM för att distribuera på GPU i både en enda begäran och batchinställningar online.
Vår 8B LFM2 MoE-modell överträffar inte bara modeller av jämförbar storlek på CPU utan utmärker sig också mot samma modeller på GPU (1xH100) med full CUDA-grafkompilering under avkodning och bitvis CUDA-graf under förifyllning.
5/n

54,41K
Topp
Rankning
Favoriter