Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Conozca LFM2-8B-A1B, nuestra primera mezcla de expertos (MoE) en el dispositivo! 🐘
> LFM2-8B-A1B es el mejor MoE en el dispositivo en términos de calidad y velocidad.
> Rendimiento de una clase de modelo 3B-4B, con un perfil de inferencia hasta 5 veces más rápido en CPU y GPU.
> Las variantes de Quantized se adaptan cómodamente a teléfonos, tabletas y computadoras portátiles de gama alta.
Habilitación de aplicaciones rápidas, privadas y de baja latencia en teléfonos, tabletas, computadoras portátiles y sistemas integrados modernos.
1/n 🧵

LFM2-8B-A1B tiene una mayor capacidad de conocimiento que los modelos de la competencia y está entrenado para proporcionar inferencia de calidad en una variedad de capacidades. Incluido:
> Conocimiento
> Instrucciones siguientes
> Matemáticas
> Traducción de idiomas
2/n

Arquitectura. La mayor parte de la investigación del Ministerio de Educación se centra en modelos de nube en entornos de servicio por lotes a gran escala. Para las aplicaciones en el dispositivo, la clave es optimizar la latencia y el consumo de energía bajo estrictos requisitos de memoria. LFM2-8B-A1B es uno de los primeros modelos en desafiar la creencia común de que la arquitectura MoE no es efectiva en tamaños de parámetros más pequeños. LFM2-8B-A1B permite cambiar una huella de memoria ligeramente mayor por una mayor calidad al tiempo que conserva la baja latencia y el consumo de energía.
LFM2-8B-A1B mantiene la red troncal LFM2 rápida e introduce redes de avance de MoE dispersas para agregar capacidad de representación sin aumentar significativamente la ruta de cómputo activa.
> Columna vertebral LFM2: 18 bloques de convolución corta con compuerta y 6 bloques GQA.
> Tamaño: 8,3 mil millones de parámetros totales, 1,5 mil millones de parámetros activos.
> Colocación de MoE: Con la excepción de las dos primeras capas, todas las capas incluyen un bloque de MoE. Las dos primeras capas permanecen densas por motivos de estabilidad.
> Granularidad de expertos: 32 expertos por bloque de MoE, con los 4 mejores expertos activos aplicados por token. Esta configuración proporciona un fuerte aumento de calidad sobre las configuraciones de menor granularidad mientras mantiene un enrutamiento rápido y kernels portátiles.
> Router: Activación sigmoide normalizada con sesgos de enrutamiento adaptativo para un mejor equilibrio de carga y dinámica de entrenamiento.
3/n

En todos los dispositivos en CPU, LFM2-8B-A1B es considerablemente más rápido que las variantes más rápidas de Qwen3-1.7B, IBM Granite 4.0 y otros.
4/n

Además de integrar LFM2-8B-A1B en llama.cpp y ExecuTorch para validar la eficiencia de inferencia en dispositivos solo de CPU, también hemos integrado el modelo en vLLM para implementarlo en GPU tanto en configuraciones por lotes de una sola solicitud como en línea.
Nuestro modelo 8B LFM2 MoE no solo supera a los modelos de tamaño comparable en CPU, sino que también sobresale frente a esos mismos modelos en GPU (1xH100) con compilación completa de gráficos CUDA durante la decodificación y gráficos CUDA por partes durante el prellenado.
5/n

62.98K
Populares
Ranking
Favoritas