Conheça LFM2-8B-A1B, nossa primeira Mistura de Especialistas (MoE) no dispositivo! 🐘 > LFM2-8B-A1B é o melhor MoE no dispositivo em termos de qualidade e velocidade. > Desempenho de uma classe de modelo 3B-4B, com perfil de inferência até 5x mais rápido em CPUs e GPUs. > As variantes quantizadas se encaixam confortavelmente em telefones, tablets e laptops de última geração. Habilitando aplicativos rápidos, privados e de baixa latência em telefones, tablets, laptops e sistemas embarcados modernos. 1/n 🧵
O LFM2-8B-A1B tem maior capacidade de conhecimento do que os modelos concorrentes e é treinado para fornecer inferência de qualidade em uma variedade de recursos. Incluindo: > Conhecimento > Instruções seguintes > Matemática > Tradução de idiomas 2/n
Arquitetura. A maioria das pesquisas do MoE se concentra em modelos de nuvem em configurações de serviço em lote em larga escala. Para aplicativos no dispositivo, a chave é otimizar a latência e o consumo de energia sob requisitos rígidos de memória. LFM2-8B-A1B é um dos primeiros modelos a desafiar a crença comum de que a arquitetura MoE não é eficaz em tamanhos de parâmetros menores. O LFM2-8B-A1B permite trocar uma pegada de memória um pouco maior por maior qualidade, mantendo baixa latência e consumo de energia. O LFM2-8B-A1B mantém o backbone rápido do LFM2 e introduz redes esparsas de feed-forward MoE para adicionar capacidade representacional sem aumentar significativamente o caminho de computação ativo. > Backbone LFM2: 18 blocos de convolução curtos fechados e 6 blocos GQA. > Tamanho: 8,3 bilhões de parâmetros totais, 1,5 bilhões de parâmetros ativos. > Posicionamento do MoE: Com exceção das duas primeiras camadas, todas as camadas incluem um bloco MoE. As duas primeiras camadas permanecem densas para fins de estabilidade. > Granularidade de especialistas: 32 especialistas por bloco MoE, com os 4 principais especialistas ativos aplicados por token. Essa configuração fornece um forte aumento de qualidade em relação às configurações de granularidade mais baixa, mantendo o roteamento rápido e os kernels portáteis. > Roteador: Bloqueio sigmóide normalizado com vieses de roteamento adaptativos para melhor balanceamento de carga e dinâmica de treinamento. 3/n
Em todos os dispositivos com CPU, o LFM2-8B-A1B é consideravelmente mais rápido do que as variantes mais rápidas do Qwen3-1.7B, IBM Granite 4.0 e outros. 4/n
Além de integrar LFM2-8B-A1B no llama.cpp e ExecuTorch para validar a eficiência de inferência em dispositivos somente CPU, também integramos o modelo ao vLLM para implantar na GPU em configurações de solicitação única e em lote online. Nosso modelo 8B LFM2 MoE não apenas supera modelos de tamanho comparável na CPU, mas também se destaca em relação aos mesmos modelos na GPU (1xH100) com compilação completa do gráfico CUDA durante a decodificação e gráfico CUDA por partes durante o pré-preenchimento. 5/n
54,42K