Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Temui LFM2-8B-A1B, Mixture-of-Experts (MoE) pertama kami di perangkat! 🐘
> LFM2-8B-A1B adalah MoE terbaik di perangkat baik dalam hal kualitas maupun kecepatan.
> Performa kelas model 3B-4B, dengan profil inferensi hingga 5x lebih cepat pada CPU dan GPU.
> Varian terukur cocok dengan nyaman di ponsel, tablet, dan laptop kelas atas.
Memungkinkan aplikasi cepat, pribadi, dan latensi rendah di ponsel, tablet, laptop, dan sistem tertanam modern.
1/n 🧵

LFM2-8B-A1B memiliki kapasitas pengetahuan yang lebih besar daripada model kompetitif dan dilatih untuk memberikan inferensi kualitas di berbagai kemampuan. Termasuk:
> Pengetahuan
> Instruksi berikut
> Matematika
> Terjemahan bahasa
2/n

Arsitektur. Sebagian besar penelitian MoE berfokus pada model cloud dalam pengaturan penyajian batch skala besar. Untuk aplikasi di perangkat, kuncinya adalah mengoptimalkan latensi dan konsumsi energi di bawah persyaratan memori yang ketat. LFM2-8B-A1B adalah salah satu model pertama yang menantang keyakinan umum bahwa arsitektur MoE tidak efektif pada ukuran parameter yang lebih kecil. LFM2-8B-A1B memungkinkan untuk memperdagangkan jejak memori yang sedikit lebih besar untuk kualitas yang lebih tinggi sambil mempertahankan latensi rendah dan konsumsi energi.
LFM2-8B-A1B menjaga tulang punggung LFM2 tetap cepat dan memperkenalkan jaringan feed-forward MoE yang jarang untuk menambah kapasitas representasi tanpa meningkatkan jalur komputasi aktif secara signifikan.
> LFM2 Backbone: 18 blok konvolusi pendek berpagar dan 6 blok GQA.
> Ukuran: 8.3B total parameter, 1.5B parameter aktif.
Penempatan > MoE: Dengan pengecualian dua lapisan pertama, semua lapisan menyertakan blok MoE. Dua lapisan pertama tetap padat untuk tujuan stabilitas.
> Granularitas ahli: 32 ahli per blok MoE, dengan 4 ahli aktif teratas diterapkan per token. Konfigurasi ini memberikan peningkatan kualitas yang kuat dibandingkan konfigurasi granularitas yang lebih rendah sambil mempertahankan perutean cepat dan kernel portabel.
> Router: Gerbang sigmoid yang dinormalisasi dengan bias perutean adaptif untuk penyeimbangan beban dan dinamika pelatihan yang lebih baik.
3/n

Di seluruh perangkat pada CPU, LFM2-8B-A1B jauh lebih cepat daripada varian tercepat Qwen3-1.7B, IBM Granite 4.0, dan lainnya.
4/n

Selain mengintegrasikan LFM2-8B-A1B pada llama.cpp dan ExecuTorch untuk memvalidasi efisiensi inferensi pada perangkat khusus CPU, kami juga telah mengintegrasikan model ke dalam vLLM untuk diterapkan pada GPU dalam pengaturan batch satu permintaan dan online.
Model MoE 8B LFM2 kami tidak hanya mengungguli model ukuran yang sebanding pada CPU, tetapi juga unggul dibandingkan model yang sama pada GPU (1xH100) dengan kompilasi grafik CUDA penuh selama dekode dan grafik CUDA sepotong selama pengisian awal.
5/n

54,41K
Teratas
Peringkat
Favorit