Hoje, expandimos nossa família LFM2 para áudio. 👂👄 O LFM2-Audio é um modelo de base omni de áudio-texto de ponta a ponta e oferece conversas responsivas e em tempo real no dispositivo com apenas 1,5 bilhão de parâmetros. Um modelo. Suporte multimodal contínuo. Sem correntes. > Fala para fala > Conversão de fala em texto > Conversão de texto em fala > Classificação de áudio > Pesos abertos Inferência 10x mais rápida em comparação com pares, com sistemas rivais de qualidade 10x maiores. 1/n 🧵
O LFM2-Audio-1.5B tem o melhor desempenho da categoria por uma grande margem no bate-papo conversacional de fala para fala - competitivo com modelos abertos maiores, como Qwen2.5-Omni-3B (5B), Lyra-Base (9B) e GLM-4-Voice (9B). 2/n
A eficiência é fundamental para cenários interativos de áudio em tempo real. O LFM2-Audio-1.5B tem uma latência média de ponta a ponta de menos de 100 ms, destacando uma eficiência excelente, ainda mais rápida do que os modelos com muito menos de 1,5B parâmetros. 3/n
LFM2-Audio é uma nova arquitetura omnimodal que suporta texto E áudio como modalidades de primeira classe, tanto na entrada quanto na saída. No lado da entrada, o modelo recebe e tokeniza tokens de texto e tokens de áudio no mesmo espaço latente. No lado da saída, o modelo gera tokens de forma autorregressiva e flexível de qualquer modalidade, dependendo da tarefa. 4/n
22,39K