Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Hoy, ampliamos nuestra familia LFM2 al audio. 👂👄 LFM2-Audio es un modelo de base omnidireccional de audio-texto de extremo a extremo, y ofrece una conversación receptiva y en tiempo real en el dispositivo con solo 1.5B parámetros. Un modelo. Soporte multimodal sin fisuras. Sin cadenas. > Voz a voz > Voz a texto > Texto a voz > Clasificación de audio > Pesos abiertos Inferencia 10 veces más rápida que sus pares, con sistemas rivales de calidad 10 veces más grandes. 1/n 🧵

LFM2-Audio-1.5B funciona mejor en su clase por un amplio margen en el chat conversacional de voz a voz, competitivo con modelos abiertos más grandes, como Qwen2.5-Omni-3B (5B), Lyra-Base (9B) y GLM-4-Voice (9B). 2/n

La eficiencia es clave para escenarios de audio interactivos en tiempo real. LFM2-Audio-1.5B tiene una latencia promedio de extremo a extremo de menos de 100 ms, lo que destaca una excelente eficiencia, incluso más rápida que los modelos con parámetros mucho menos de 1.5B. 3/n

LFM2-Audio es una novedosa arquitectura omnimodal que admite tanto texto como audio como modalidades de primera clase, tanto en entrada como en salida. En el lado de entrada, el modelo toma y tokeniza tokens de texto y tokens de audio en el mismo espacio latente. En el lado de salida, el modelo genera tokens de forma autorregresiva y flexible de cualquiera de las modalidades, según la tarea. 4/n

32.37K

Populares

Ranking

Favoritas