Conheça o LFM2-8B-A1B, o nosso primeiro Mixture-of-Experts (MoE) em dispositivo! 🐘 > O LFM2-8B-A1B é o melhor MoE em dispositivo em termos de qualidade e velocidade. > Desempenho de uma classe de modelo de 3B-4B, com até 5x mais rápido no perfil de inferência em CPUs e GPUs. > As variantes quantizadas cabem confortavelmente em telefones, tablets e laptops de alta gama. Possibilitando aplicações rápidas, privadas e de baixa latência em telefones modernos, tablets, laptops e sistemas embutidos. 1/n 🧵
LFM2-8B-A1B tem uma capacidade de conhecimento maior do que modelos competitivos e é treinado para fornecer inferências de qualidade em uma variedade de capacidades. Incluindo: > Conhecimento > Seguimento de instruções > Matemática > Tradução de idiomas 2/n
Arquitetura. A maior parte da pesquisa sobre MoE foca em modelos de nuvem em configurações de atendimento em lote de grande escala. Para aplicações em dispositivos, a chave é otimizar a latência e o consumo de energia sob requisitos de memória rigorosos. O LFM2-8B-A1B é um dos primeiros modelos a desafiar a crença comum de que a arquitetura MoE não é eficaz em tamanhos de parâmetros menores. O LFM2-8B-A1B permite trocar uma pegada de memória ligeiramente maior por uma qualidade superior, mantendo baixa latência e consumo de energia. O LFM2‑8B-A1B mantém a rápida espinha dorsal LFM2 e introduz redes de avanço MoE esparsas para adicionar capacidade representacional sem aumentar significativamente o caminho de computação ativo. > Espinha Dorsal LFM2: 18 blocos de convolução curtos com portões e 6 blocos GQA. > Tamanho: 8,3B de parâmetros totais, 1,5B de parâmetros ativos. > Colocação do MoE: Com exceção das duas primeiras camadas, todas as camadas incluem um bloco MoE. As duas primeiras camadas permanecem densas por motivos de estabilidade. > Granularidade dos especialistas: 32 especialistas por bloco MoE, com os 4 especialistas ativos principais aplicados por token. Esta configuração proporciona um forte aumento de qualidade em relação a configurações de granularidade mais baixa, mantendo roteamento rápido e núcleos portáteis. > Roteador: Gating sigmoide normalizado com viés de roteamento adaptativo para melhor balanceamento de carga e dinâmica de treinamento. 3/n
Em dispositivos com CPU, o LFM2-8B-A1B é consideravelmente mais rápido do que as variantes mais rápidas do Qwen3-1.7B, IBM Granite 4.0 e outros. 4/n
Além de integrar o LFM2-8B-A1B no llama.cpp e no ExecuTorch para validar a eficiência de inferência em dispositivos apenas com CPU, também integramos o modelo no vLLM para implantar em GPU, tanto em configurações de solicitação única quanto em lotes online. Nosso modelo LFM2 MoE de 8B não só supera modelos de tamanho comparável em CPU, mas também se destaca em relação a esses mesmos modelos em GPU (1xH100) com compilação completa de gráfico CUDA durante a decodificação e gráfico CUDA em partes durante o preenchimento. 5/n
54,41K