Gặp gỡ LFM2-8B-A1B, Mixture-of-Experts (MoE) đầu tiên trên thiết bị của chúng tôi! 🐘 > LFM2-8B-A1B là MoE trên thiết bị tốt nhất về cả chất lượng và tốc độ. > Hiệu suất của một mô hình lớp 3B-4B, với tốc độ suy diễn nhanh hơn tới 5 lần trên CPU và GPU. > Các biến thể đã được lượng tử hóa phù hợp thoải mái trên các điện thoại, máy tính bảng và laptop cao cấp. Cho phép các ứng dụng nhanh, riêng tư, độ trễ thấp trên các điện thoại, máy tính bảng, laptop và hệ thống nhúng hiện đại. 1/n 🧵
LFM2-8B-A1B có khả năng tiếp thu kiến thức vượt trội hơn so với các mô hình cạnh tranh và được đào tạo để cung cấp suy luận chất lượng trên nhiều khả năng khác nhau. Bao gồm: > Kiến thức > Thực hiện hướng dẫn > Toán học > Dịch ngôn ngữ 2/n
Kiến trúc. Hầu hết nghiên cứu MoE tập trung vào các mô hình đám mây trong các cài đặt phục vụ theo lô quy mô lớn. Đối với các ứng dụng trên thiết bị, điều quan trọng là tối ưu hóa độ trễ và tiêu thụ năng lượng dưới các yêu cầu bộ nhớ nghiêm ngặt. LFM2-8B-A1B là một trong những mô hình đầu tiên thách thức niềm tin phổ biến rằng kiến trúc MoE không hiệu quả với kích thước tham số nhỏ hơn. LFM2-8B-A1B cho phép đánh đổi một dấu chân bộ nhớ lớn hơn một chút để có chất lượng cao hơn trong khi vẫn giữ được độ trễ thấp và tiêu thụ năng lượng. LFM2‑8B-A1B giữ lại xương sống nhanh LFM2 và giới thiệu các mạng feed-forward MoE thưa thớt để tăng cường khả năng biểu diễn mà không làm tăng đáng kể đường tính toán hoạt động. > Xương sống LFM2: 18 khối tích chập ngắn có cổng và 6 khối GQA. > Kích thước: 8.3B tham số tổng, 1.5B tham số hoạt động. > Vị trí MoE: Ngoại trừ hai lớp đầu tiên, tất cả các lớp đều bao gồm một khối MoE. Hai lớp đầu tiên vẫn giữ nguyên để đảm bảo tính ổn định. > Độ tinh vi của chuyên gia: 32 chuyên gia mỗi khối MoE, với 4 chuyên gia hoạt động hàng đầu được áp dụng cho mỗi token. Cấu hình này cung cấp một sự gia tăng chất lượng mạnh mẽ so với các cấu hình độ tinh vi thấp hơn trong khi vẫn duy trì định tuyến nhanh và các kernel di động. > Bộ định tuyến: Gating sigmoid chuẩn hóa với các thiên lệch định tuyến thích ứng để cân bằng tải và động lực đào tạo tốt hơn. 3/n
Trên các thiết bị sử dụng CPU, LFM2-8B-A1B nhanh hơn đáng kể so với các biến thể nhanh nhất của Qwen3-1.7B, IBM Granite 4.0 và những cái khác. 4/n
Ngoài việc tích hợp LFM2-8B-A1B trên llama.cpp và ExecuTorch để xác thực hiệu quả suy diễn trên các thiết bị chỉ có CPU, chúng tôi cũng đã tích hợp mô hình vào vLLM để triển khai trên GPU trong cả hai cài đặt yêu cầu đơn lẻ và theo lô trực tuyến. Mô hình 8B LFM2 MoE của chúng tôi không chỉ vượt trội hơn các mô hình có kích thước tương đương trên CPU mà còn xuất sắc hơn so với những mô hình đó trên GPU (1xH100) với việc biên dịch CUDA-graph đầy đủ trong quá trình giải mã và CUDA-graph từng phần trong quá trình điền trước. 5/n
54,43K