Hoy, expandimos nuestra familia LFM2 al audio. 👂👄 LFM2-Audio es un modelo de fundación omni de audio-texto de extremo a extremo, y ofrece conversación receptiva y en tiempo real en el dispositivo con solo 1.5B de parámetros. Un modelo. Soporte multimodal sin fisuras. Sin cadenas. > De voz a voz > De voz a texto > De texto a voz > Clasificación de audio > Pesos abiertos Inferencia 10x más rápida en comparación con los pares, con calidad que rivaliza con sistemas 10x más grandes. 1/n 🧵
LFM2-Audio-1.5B ofrece un rendimiento de clase mundial por un amplio margen en chat de voz a voz conversacional, siendo competitivo con modelos abiertos más grandes, como Qwen2.5-Omni-3B (5B), Lyra-Base (9B) y GLM-4-Voice (9B). 2/n
La eficiencia es clave para escenarios de audio interactivo en tiempo real. LFM2-Audio-1.5B tiene una latencia promedio de extremo a extremo de menos de 100 ms, destacando una eficiencia superb, incluso más rápida que modelos con mucho menos de 1.5B de parámetros. 3/n
LFM2-Audio es una nueva arquitectura omni-modal que soporta tanto texto COMO audio como modalidades de primera clase, tanto en entrada como en salida. En el lado de la entrada, el modelo recibe y tokeniza tanto los tokens de texto como los tokens de audio en el mismo espacio latente. En el lado de la salida, el modelo genera de manera autoregresiva y flexible tokens de cualquiera de las modalidades, dependiendo de la tarea. 4/n
35,78K