熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
認識 LFM2-8B-A1B,我們的首款設備內部混合專家 (MoE)! 🐘
> LFM2-8B-A1B 在質量和速度方面都是最佳的設備內部 MoE。
> 性能相當於 3B-4B 模型類別,在 CPU 和 GPU 上的推理速度快達 5 倍。
> 量化變體可輕鬆適應高端手機、平板電腦和筆記本電腦。
實現快速、私密、低延遲的應用程序,適用於現代手機、平板電腦、筆記本電腦和嵌入式系統。
1/n 🧵

LFM2-8B-A1B 擁有比競爭模型更大的知識容量,並經過訓練以在多種能力上提供高品質的推理。包括:
> 知識
> 指令遵循
> 數學
> 語言翻譯
2/n

架構。大多數 MoE 研究集中在大型批量服務環境中的雲模型。對於設備上的應用,關鍵是要在嚴格的內存要求下優化延遲和能耗。LFM2-8B-A1B 是首批挑戰 MoE 架構在較小參數大小上無效的普遍觀念的模型之一。LFM2-8B-A1B 允許在保持低延遲和能耗的同時,為更高的質量交易稍大的內存佔用。
LFM2‑8B-A1B 保持 LFM2 快速骨幹,並引入稀疏 MoE 前饋網絡,以在不顯著增加活躍計算路徑的情況下增加表徵能力。
> LFM2 骨幹:18 個門控短卷積塊和 6 個 GQA 塊。
> 大小:總參數 8.3B,活躍參數 1.5B。
> MoE 放置:除了前兩層外,所有層都包括一個 MoE 塊。前兩層保持密集以確保穩定性。
> 專家粒度:每個 MoE 塊 32 位專家,每個標記應用前 4 位活躍專家。這種配置在保持快速路由和可攜式內核的同時,提供了比較低粒度配置更強的質量提升。
> 路由器:標準化的 sigmoid 門控,具有自適應路由偏差,以實現更好的負載平衡和訓練動態。
3/n

在 CPU 上的各種設備中,LFM2-8B-A1B 的速度明顯快於 Qwen3-1.7B、IBM Granite 4.0 及其他最快的變體。
4/n

除了在 llama.cpp 和 ExecuTorch 中整合 LFM2-8B-A1B 以驗證僅使用 CPU 的推理效率外,我們還將該模型整合到 vLLM 中,以便在 GPU 上以單請求和在線批處理的方式進行部署。
我們的 8B LFM2 MoE 模型不僅在 CPU 上超越了同類型的模型,還在 GPU (1xH100) 上表現優異,並在解碼過程中進行完整的 CUDA-圖編譯,在預填充過程中進行分段 CUDA-圖編譯。
5/n

54.42K
熱門
排行
收藏