Hoje, expandimos nossa família LFM2 para áudio. 👂👄 LFM2-Audio é um modelo de fundação omni de áudio-texto de ponta a ponta, e oferece conversação responsiva e em tempo real no dispositivo com apenas 1,5B de parâmetros. Um modelo. Suporte multimodal sem costuras. Sem cadeias. > Fala-para-fala > Fala-para-texto > Texto-para-fala > Classificação de áudio > Pesos abertos Inferência 10x mais rápida em comparação com os pares, com qualidade rivalizando sistemas 10x maiores. 1/n 🧵
O LFM2-Audio-1.5B apresenta um desempenho de classe mundial com uma grande margem em conversas de fala para fala – competitivo com modelos abertos maiores, como Qwen2.5-Omni-3B (5B), Lyra-Base (9B) e GLM-4-Voice (9B). 2/n
A eficiência é fundamental para cenários de áudio interativos em tempo real. O LFM2-Audio-1.5B tem uma latência média de ponta a ponta de menos de 100 ms, destacando uma eficiência superb, ainda mais rápida do que modelos com muito menos de 1.5B parâmetros. 3/n
LFM2-Audio é uma nova arquitetura omni-modal que suporta tanto texto QUANTO áudio como modalidades de primeira classe, tanto na entrada quanto na saída. No lado da entrada, o modelo recebe e tokeniza tanto tokens de texto quanto tokens de áudio no mesmo espaço latente. No lado da saída, o modelo gera de forma autoregressiva e flexível tokens de qualquer modalidade, dependendo da tarefa. 4/n
32,38K