一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

認識 LFM2-8B-A1B，我們的首款設備內部混合專家 (MoE)! 🐘 > LFM2-8B-A1B 在質量和速度方面都是最佳的設備內部 MoE。 > 性能相當於 3B-4B 模型類別，在 CPU 和 GPU 上的推理速度快達 5 倍。 > 量化變體可輕鬆適應高端手機、平板電腦和筆記本電腦。實現快速、私密、低延遲的應用程序，適用於現代手機、平板電腦、筆記本電腦和嵌入式系統。 1/n 🧵

LFM2-8B-A1B 擁有比競爭模型更大的知識容量，並經過訓練以在多種能力上提供高品質的推理。包括： > 知識 > 指令遵循 > 數學 > 語言翻譯 2/n

架構。大多數 MoE 研究集中在大型批量服務環境中的雲模型。對於設備上的應用，關鍵是要在嚴格的內存要求下優化延遲和能耗。LFM2-8B-A1B 是首批挑戰 MoE 架構在較小參數大小上無效的普遍觀念的模型之一。LFM2-8B-A1B 允許在保持低延遲和能耗的同時，為更高的質量交易稍大的內存佔用。 LFM2‑8B-A1B 保持 LFM2 快速骨幹，並引入稀疏 MoE 前饋網絡，以在不顯著增加活躍計算路徑的情況下增加表徵能力。 > LFM2 骨幹：18 個門控短卷積塊和 6 個 GQA 塊。 > 大小：總參數 8.3B，活躍參數 1.5B。 > MoE 放置：除了前兩層外，所有層都包括一個 MoE 塊。前兩層保持密集以確保穩定性。 > 專家粒度：每個 MoE 塊 32 位專家，每個標記應用前 4 位活躍專家。這種配置在保持快速路由和可攜式內核的同時，提供了比較低粒度配置更強的質量提升。 > 路由器：標準化的 sigmoid 門控，具有自適應路由偏差，以實現更好的負載平衡和訓練動態。 3/n

在 CPU 上的各種設備中，LFM2-8B-A1B 的速度明顯快於 Qwen3-1.7B、IBM Granite 4.0 及其他最快的變體。 4/n

除了在 llama.cpp 和 ExecuTorch 中整合 LFM2-8B-A1B 以驗證僅使用 CPU 的推理效率外，我們還將該模型整合到 vLLM 中，以便在 GPU 上以單請求和在線批處理的方式進行部署。我們的 8B LFM2 MoE 模型不僅在 CPU 上超越了同類型的模型，還在 GPU (1xH100) 上表現優異，並在解碼過程中進行完整的 CUDA-圖編譯，在預填充過程中進行分段 CUDA-圖編譯。 5/n

54.42K