Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Incontra LFM2-8B-A1B, il nostro primo Mixture-of-Experts (MoE) on-device! 🐘
> LFM2-8B-A1B è il miglior MoE on-device in termini di qualità e velocità.
> Prestazioni di una classe di modelli da 3B-4B, con un profilo di inferenza fino a 5 volte più veloce su CPU e GPU.
> Le varianti quantizzate si adattano comodamente a telefoni, tablet e laptop di alta gamma.
Abilitando applicazioni veloci, private e a bassa latenza su telefoni, tablet, laptop e sistemi embedded moderni.
1/n 🧵

LFM2-8B-A1B ha una capacità di conoscenza superiore rispetto ai modelli concorrenti ed è addestrato per fornire inferenze di qualità in una varietà di capacità. Inclusi:
> Conoscenza
> Seguire istruzioni
> Matematica
> Traduzione linguistica
2/n

Architettura. La maggior parte della ricerca MoE si concentra su modelli cloud in contesti di servizio batch su larga scala. Per le applicazioni su dispositivo, la chiave è ottimizzare la latenza e il consumo energetico sotto rigorosi requisiti di memoria. LFM2-8B-A1B è uno dei primi modelli a sfidare la comune convinzione che l'architettura MoE non sia efficace a dimensioni di parametro più piccole. LFM2-8B-A1B consente di scambiare un'impronta di memoria leggermente più grande per una qualità superiore mantenendo bassa latenza e consumo energetico.
LFM2‑8B-A1B mantiene il backbone veloce LFM2 e introduce reti feed-forward sparse MoE per aggiungere capacità rappresentativa senza aumentare significativamente il percorso di calcolo attivo.
> Backbone LFM2: 18 blocchi di convoluzione brevi gated e 6 blocchi GQA.
> Dimensione: 8,3B parametri totali, 1,5B parametri attivi.
> Posizionamento MoE: ad eccezione dei primi due strati, tutti gli strati includono un blocco MoE. I primi due strati rimangono densi per motivi di stabilità.
> Granularità degli esperti: 32 esperti per blocco MoE, con i 4 esperti attivi migliori applicati per token. Questa configurazione fornisce un forte aumento della qualità rispetto a configurazioni a granularità inferiore mantenendo un routing veloce e kernel portatili.
> Router: gating sigmoid normalizzato con bias di routing adattivi per un migliore bilanciamento del carico e dinamiche di addestramento.
3/n

Su dispositivi con CPU, LFM2-8B-A1B è notevolmente più veloce delle varianti più veloci di Qwen3-1.7B, IBM Granite 4.0 e altri.
4/n

Oltre a integrare LFM2-8B-A1B su llama.cpp e ExecuTorch per convalidare l'efficienza dell'inferenza su dispositivi solo CPU, abbiamo anche integrato il modello in vLLM per il deployment su GPU sia in impostazioni di richiesta singola che in batch online.
Il nostro modello 8B LFM2 MoE non solo supera modelli di dimensioni comparabili su CPU, ma eccelle anche contro quegli stessi modelli su GPU (1xH100) con compilazione completa del grafo CUDA durante la decodifica e grafo CUDA a pezzi durante il prefill.
5/n

54,42K
Principali
Ranking
Preferiti