Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Poznaj LFM2-8B-A1B, nasz pierwszy model Mixture-of-Experts (MoE) na urządzeniu! 🐘
> LFM2-8B-A1B to najlepszy model MoE na urządzeniu pod względem jakości i szybkości.
> Wydajność klasy modelu 3B-4B, z nawet 5x szybszym profilem wnioskowania na CPU i GPU.
> Zmniejszone warianty mieszczą się wygodnie w wysokiej klasy telefonach, tabletach i laptopach.
Umożliwiając szybkie, prywatne aplikacje o niskim opóźnieniu na nowoczesnych telefonach, tabletach, laptopach i systemach wbudowanych.
1/n 🧵

LFM2-8B-A1B ma większą pojemność wiedzy niż modele konkurencyjne i jest szkolony, aby zapewniać wysoką jakość wnioskowania w różnych dziedzinach. W tym:
> Wiedza
> Podążanie za instrukcjami
> Matematyka
> Tłumaczenie języków
2/n

Architektura. Większość badań MoE koncentruje się na modelach chmurowych w dużych ustawieniach serwowania wsadowego. W przypadku aplikacji na urządzeniach kluczowe jest optymalizowanie opóźnienia i zużycia energii przy ścisłych wymaganiach dotyczących pamięci. LFM2-8B-A1B jest jednym z pierwszych modeli, które kwestionują powszechne przekonanie, że architektura MoE nie jest skuteczna przy mniejszych rozmiarach parametrów. LFM2-8B-A1B pozwala na wymianę nieco większego śladu pamięciowego na wyższą jakość, jednocześnie zachowując niskie opóźnienie i zużycie energii.
LFM2‑8B-A1B utrzymuje szybki szkielet LFM2 i wprowadza rzadkie sieci feed-forward MoE, aby dodać zdolność reprezentacyjną bez znacznego zwiększania aktywnej ścieżki obliczeniowej.
> Szkielet LFM2: 18 bloków konwolucyjnych z bramkami i 6 bloków GQA.
> Rozmiar: 8,3B całkowitych parametrów, 1,5B aktywnych parametrów.
> Umiejscowienie MoE: Z wyjątkiem pierwszych dwóch warstw, wszystkie warstwy zawierają blok MoE. Pierwsze dwie warstwy pozostają gęste dla celów stabilności.
> Granularność ekspertów: 32 ekspertów na blok MoE, z zastosowaniem 4 aktywnych ekspertów na token. Ta konfiguracja zapewnia silny wzrost jakości w porównaniu do konfiguracji o niższej granularności, jednocześnie utrzymując szybkie routowanie i przenośne jądra.
> Router: Normalizowane bramkowanie sigmoidalne z adaptacyjnymi biasami routingu dla lepszego równoważenia obciążenia i dynamiki treningu.
3/n

Na różnych urządzeniach na CPU, LFM2-8B-A1B jest znacznie szybszy niż najszybsze warianty Qwen3-1.7B, IBM Granite 4.0 i inne.
4/n

Oprócz integracji LFM2-8B-A1B w llama.cpp i ExecuTorch w celu weryfikacji efektywności wnioskowania na urządzeniach tylko CPU, zintegrowaliśmy również model z vLLM, aby wdrożyć go na GPU w ustawieniach pojedynczego żądania i online w partiach.
Nasz model 8B LFM2 MoE nie tylko przewyższa modele o porównywalnej wielkości na CPU, ale także doskonale radzi sobie w porównaniu do tych samych modeli na GPU (1xH100) z pełną kompilacją CUDA-graph podczas dekodowania i częściową kompilacją CUDA-graph podczas wypełniania.
5/n

54,41K
Najlepsze
Ranking
Ulubione