Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lernen Sie LFM2-8B-A1B kennen, unser erstes On-Device Mixture-of-Experts (MoE)! 🐘
> LFM2-8B-A1B ist das beste On-Device MoE in Bezug auf Qualität und Geschwindigkeit.
> Leistung einer 3B-4B Modellklasse, mit bis zu 5x schnellerem Inferenzprofil auf CPUs und GPUs.
> Quantisierte Varianten passen bequem auf High-End-Handys, Tablets und Laptops.
Ermöglicht schnelle, private, latenzarme Anwendungen auf modernen Handys, Tablets, Laptops und eingebetteten Systemen.
1/n 🧵

LFM2-8B-A1B hat eine größere Wissenskapazität als konkurrierende Modelle und ist darauf trainiert, qualitativ hochwertige Inferenz über eine Vielzahl von Fähigkeiten bereitzustellen. Dazu gehören:
> Wissen
> Befehlsbefolgung
> Mathematik
> Sprachübersetzung
2/n

Architektur. Die meisten MoE-Forschungen konzentrieren sich auf Cloud-Modelle in großen Batch-Servierungseinstellungen. Für Anwendungen auf Geräten ist es entscheidend, Latenz und Energieverbrauch unter strengen Speicheranforderungen zu optimieren. LFM2-8B-A1B ist eines der ersten Modelle, das die gängige Überzeugung in Frage stellt, dass die MoE-Architektur bei kleineren Parametergrößen nicht effektiv ist. LFM2-8B-A1B ermöglicht es, einen etwas größeren Speicherbedarf gegen höhere Qualität einzutauschen, während eine niedrige Latenz und ein geringer Energieverbrauch beibehalten werden.
LFM2‑8B-A1B behält das schnelle LFM2-Backbone bei und führt spärliche MoE-Feed-Forward-Netzwerke ein, um die repräsentative Kapazität zu erhöhen, ohne den aktiven Rechenweg signifikant zu vergrößern.
> LFM2-Backbone: 18 gated kurze Faltungsblöcke und 6 GQA-Blöcke.
> Größe: 8,3B Gesamtparameter, 1,5B aktive Parameter.
> MoE-Platzierung: Mit Ausnahme der ersten beiden Schichten enthalten alle Schichten einen MoE-Block. Die ersten beiden Schichten bleiben dicht aus Stabilitätsgründen.
> Experten-Granularität: 32 Experten pro MoE-Block, wobei die Top-4 aktiven Experten pro Token angewendet werden. Diese Konfiguration bietet einen starken Qualitätszuwachs gegenüber Konfigurationen mit niedrigerer Granularität, während schnelles Routing und tragbare Kerne beibehalten werden.
> Router: Normalisierte Sigmoid-Gating mit adaptiven Routing-Biases für besseres Lastenausgleich und Trainingsdynamik.
3/n

Auf Geräten mit CPU ist LFM2-8B-A1B erheblich schneller als die schnellsten Varianten von Qwen3-1.7B, IBM Granite 4.0 und anderen.
4/n

Neben der Integration von LFM2-8B-A1B in llama.cpp und ExecuTorch zur Validierung der Inferenz-Effizienz auf CPU-only Geräten haben wir das Modell auch in vLLM integriert, um es auf GPU sowohl in Einzelanfragen als auch in Online-Batch-Einstellungen bereitzustellen.
Unser 8B LFM2 MoE Modell übertrifft nicht nur vergleichbare Modelle in ähnlicher Größe auf CPU, sondern schneidet auch besser ab als diese Modelle auf GPU (1xH100) mit vollständiger CUDA-Graph-Kompilierung während des Decodierens und stückweiser CUDA-Graph-Kompilierung während des Prefills.
5/n

54,41K
Top
Ranking
Favoriten