認識 LFM2-8B-A1B,我們的首款設備內部混合專家 (MoE)! 🐘 > LFM2-8B-A1B 在質量和速度方面都是最佳的設備內部 MoE。 > 性能相當於 3B-4B 模型類別,在 CPU 和 GPU 上的推理速度快達 5 倍。 > 量化變體可輕鬆適應高端手機、平板電腦和筆記本電腦。 實現快速、私密、低延遲的應用程序,適用於現代手機、平板電腦、筆記本電腦和嵌入式系統。 1/n 🧵
LFM2-8B-A1B 擁有比競爭模型更大的知識容量,並經過訓練以在多種能力上提供高品質的推理。包括: > 知識 > 指令遵循 > 數學 > 語言翻譯 2/n
架構。大多數 MoE 研究集中在大型批量服務環境中的雲模型。對於設備上的應用,關鍵是要在嚴格的內存要求下優化延遲和能耗。LFM2-8B-A1B 是首批挑戰 MoE 架構在較小參數大小上無效的普遍觀念的模型之一。LFM2-8B-A1B 允許在保持低延遲和能耗的同時,為更高的質量交易稍大的內存佔用。 LFM2‑8B-A1B 保持 LFM2 快速骨幹,並引入稀疏 MoE 前饋網絡,以在不顯著增加活躍計算路徑的情況下增加表徵能力。 > LFM2 骨幹:18 個門控短卷積塊和 6 個 GQA 塊。 > 大小:總參數 8.3B,活躍參數 1.5B。 > MoE 放置:除了前兩層外,所有層都包括一個 MoE 塊。前兩層保持密集以確保穩定性。 > 專家粒度:每個 MoE 塊 32 位專家,每個標記應用前 4 位活躍專家。這種配置在保持快速路由和可攜式內核的同時,提供了比較低粒度配置更強的質量提升。 > 路由器:標準化的 sigmoid 門控,具有自適應路由偏差,以實現更好的負載平衡和訓練動態。 3/n
在 CPU 上的各種設備中,LFM2-8B-A1B 的速度明顯快於 Qwen3-1.7B、IBM Granite 4.0 及其他最快的變體。 4/n
除了在 llama.cpp 和 ExecuTorch 中整合 LFM2-8B-A1B 以驗證僅使用 CPU 的推理效率外,我們還將該模型整合到 vLLM 中,以便在 GPU 上以單請求和在線批處理的方式進行部署。 我們的 8B LFM2 MoE 模型不僅在 CPU 上超越了同類型的模型,還在 GPU (1xH100) 上表現優異,並在解碼過程中進行完整的 CUDA-圖編譯,在預填充過程中進行分段 CUDA-圖編譯。 5/n
54.42K