Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Conoce LFM2-8B-A1B, nuestro primer Mixture-of-Experts (MoE) en el dispositivo! 🐘
> LFM2-8B-A1B es el mejor MoE en el dispositivo en términos de calidad y velocidad.
> Rendimiento de una clase de modelo de 3B-4B, con un perfil de inferencia hasta 5 veces más rápido en CPUs y GPUs.
> Las variantes cuantizadas se adaptan cómodamente en teléfonos, tabletas y laptops de alta gama.
Habilitando aplicaciones rápidas, privadas y de baja latencia en teléfonos, tabletas, laptops y sistemas embebidos modernos.
1/n 🧵

LFM2-8B-A1B tiene una mayor capacidad de conocimiento que los modelos competitivos y está entrenado para proporcionar inferencias de calidad en una variedad de capacidades. Incluyendo:
> Conocimiento
> Seguimiento de instrucciones
> Matemáticas
> Traducción de idiomas
2/n

Arquitectura. La mayoría de la investigación sobre MoE se centra en modelos en la nube en configuraciones de servicio por lotes a gran escala. Para aplicaciones en dispositivos, la clave es optimizar la latencia y el consumo de energía bajo estrictos requisitos de memoria. LFM2-8B-A1B es uno de los primeros modelos en desafiar la creencia común de que la arquitectura MoE no es efectiva en tamaños de parámetros más pequeños. LFM2-8B-A1B permite intercambiar una huella de memoria ligeramente mayor por una calidad superior, manteniendo al mismo tiempo una baja latencia y consumo de energía.
LFM2‑8B-A1B mantiene la rápida columna vertebral LFM2 e introduce redes de avance MoE dispersas para añadir capacidad representacional sin aumentar significativamente la ruta de cálculo activa.
> Columna vertebral LFM2: 18 bloques de convolución cortos con compuertas y 6 bloques GQA.
> Tamaño: 8.3B de parámetros totales, 1.5B de parámetros activos.
> Colocación de MoE: Con la excepción de las dos primeras capas, todas las capas incluyen un bloque MoE. Las dos primeras capas permanecen densas por razones de estabilidad.
> Granularidad de expertos: 32 expertos por bloque MoE, con los 4 expertos activos principales aplicados por token. Esta configuración proporciona un fuerte aumento de calidad sobre configuraciones de menor granularidad mientras mantiene un enrutamiento rápido y núcleos portátiles.
> Enrutador: Compensación de compuerta sigmoide normalizada con sesgos de enrutamiento adaptativos para un mejor equilibrio de carga y dinámica de entrenamiento.
3/n

En dispositivos con CPU, LFM2-8B-A1B es considerablemente más rápido que las variantes más rápidas de Qwen3-1.7B, IBM Granite 4.0 y otros.
4/n

Además de integrar LFM2-8B-A1B en llama.cpp y ExecuTorch para validar la eficiencia de inferencia en dispositivos solo con CPU, también hemos integrado el modelo en vLLM para desplegarlo en GPU tanto en configuraciones de solicitud única como en lotes en línea.
Nuestro modelo LFM2 MoE de 8B no solo supera a modelos de tamaño comparable en CPU, sino que también destaca frente a esos mismos modelos en GPU (1xH100) con compilación completa de gráficos CUDA durante la decodificación y gráficos CUDA por partes durante el prellenado.
5/n

54,42K
Parte superior
Clasificación
Favoritos