Poznaj LFM2-8B-A1B, nasz pierwszy model Mixture-of-Experts (MoE) na urządzeniu! 🐘 > LFM2-8B-A1B to najlepszy model MoE na urządzeniu pod względem jakości i szybkości. > Wydajność klasy modelu 3B-4B, z nawet 5x szybszym profilem wnioskowania na CPU i GPU. > Zmniejszone warianty mieszczą się wygodnie w wysokiej klasy telefonach, tabletach i laptopach. Umożliwiając szybkie, prywatne aplikacje o niskim opóźnieniu na nowoczesnych telefonach, tabletach, laptopach i systemach wbudowanych. 1/n 🧵
LFM2-8B-A1B ma większą pojemność wiedzy niż modele konkurencyjne i jest szkolony, aby zapewniać wysoką jakość wnioskowania w różnych dziedzinach. W tym: > Wiedza > Podążanie za instrukcjami > Matematyka > Tłumaczenie języków 2/n
Architektura. Większość badań MoE koncentruje się na modelach chmurowych w dużych ustawieniach serwowania wsadowego. W przypadku aplikacji na urządzeniach kluczowe jest optymalizowanie opóźnienia i zużycia energii przy ścisłych wymaganiach dotyczących pamięci. LFM2-8B-A1B jest jednym z pierwszych modeli, które kwestionują powszechne przekonanie, że architektura MoE nie jest skuteczna przy mniejszych rozmiarach parametrów. LFM2-8B-A1B pozwala na wymianę nieco większego śladu pamięciowego na wyższą jakość, jednocześnie zachowując niskie opóźnienie i zużycie energii. LFM2‑8B-A1B utrzymuje szybki szkielet LFM2 i wprowadza rzadkie sieci feed-forward MoE, aby dodać zdolność reprezentacyjną bez znacznego zwiększania aktywnej ścieżki obliczeniowej. > Szkielet LFM2: 18 bloków konwolucyjnych z bramkami i 6 bloków GQA. > Rozmiar: 8,3B całkowitych parametrów, 1,5B aktywnych parametrów. > Umiejscowienie MoE: Z wyjątkiem pierwszych dwóch warstw, wszystkie warstwy zawierają blok MoE. Pierwsze dwie warstwy pozostają gęste dla celów stabilności. > Granularność ekspertów: 32 ekspertów na blok MoE, z zastosowaniem 4 aktywnych ekspertów na token. Ta konfiguracja zapewnia silny wzrost jakości w porównaniu do konfiguracji o niższej granularności, jednocześnie utrzymując szybkie routowanie i przenośne jądra. > Router: Normalizowane bramkowanie sigmoidalne z adaptacyjnymi biasami routingu dla lepszego równoważenia obciążenia i dynamiki treningu. 3/n
Na różnych urządzeniach na CPU, LFM2-8B-A1B jest znacznie szybszy niż najszybsze warianty Qwen3-1.7B, IBM Granite 4.0 i inne. 4/n
Oprócz integracji LFM2-8B-A1B w llama.cpp i ExecuTorch w celu weryfikacji efektywności wnioskowania na urządzeniach tylko CPU, zintegrowaliśmy również model z vLLM, aby wdrożyć go na GPU w ustawieniach pojedynczego żądania i online w partiach. Nasz model 8B LFM2 MoE nie tylko przewyższa modele o porównywalnej wielkości na CPU, ale także doskonale radzi sobie w porównaniu do tych samych modeli na GPU (1xH100) z pełną kompilacją CUDA-graph podczas dekodowania i częściową kompilacją CUDA-graph podczas wypełniania. 5/n
54,41K