Vandaag breiden we onze LFM2-familie uit naar audio. 👂👄 LFM2-Audio is een end-to-end audio-tekst omni foundation model en levert responsieve, real-time conversatie op het apparaat met slechts 1,5 miljard parameters. Één model. Naadloze multimodale ondersteuning. Geen ketens. > Spraak-naar-spraak > Spraak-naar-tekst > Tekst-naar-spraak > Audio-classificatie > Open gewichten 10x snellere inferentie in vergelijking met concurrenten, met kwaliteit die rivaliseert met systemen die 10x groter zijn. 1/n 🧵
LFM2-Audio-1.5B presteert met een grote marge het beste in zijn klasse op conversatiespeech-naar-speech chat – concurrerend met grotere open modellen, zoals Qwen2.5-Omni-3B (5B), Lyra-Base (9B) en GLM-4-Voice (9B). 2/n
Efficiëntie is de sleutel voor interactieve audio-scenario's in real-time. LFM2-Audio-1.5B heeft een gemiddelde end-to-end latentie van minder dan 100 ms, wat een uitstekende efficiëntie benadrukt, zelfs sneller dan modellen met veel minder dan 1,5B parameters. 3/n
LFM2-Audio is een nieuwe omni-modale architectuur die zowel tekst ALS audio ondersteunt als eersteklas modaliteiten, zowel in invoer als uitvoer. Aan de invoerkant neemt het model zowel teksttokens als audiotokens op en tokeniseert deze in dezelfde latente ruimte. Aan de uitvoerkant genereert het model autoregressief en flexibel tokens van een van beide modaliteiten, afhankelijk van de taak. 4/n
39,65K