I dag utvider vi vår LFM2-familie til lyd. 👂👄 LFM2-Audio er en ende-til-ende lyd-tekst omni foundation-modell, og leverer responsiv sanntidssamtale på enheten med bare 1,5 milliarder parametere. Én modell. Sømløs multimodal støtte. Ingen kjeder. > Tale-til-tale > Tale-til-tekst > Tekst-til-tale > Lydklassifisering > Åpne vekter 10 ganger raskere slutning sammenlignet med jevnaldrende, med kvalitetskonkurrerende systemer 10 ganger større. 1/n 🧵
LFM2-Audio-1.5B yter best i klassen med stor margin på samtale-tale-til-tale-chat – konkurransedyktig med større åpne modeller, som Qwen2.5-Omni-3B (5B), Lyra-Base (9B) og GLM-4-Voice (9B). 2/n
Effektivitet er nøkkelen for interaktive lydscenarier i sanntid. LFM2-Audio-1.5B har en gjennomsnittlig ende-til-ende-ventetid på under 100 ms, noe som fremhever suveren effektivitet, enda raskere enn modeller med mye færre enn 1.5B parametere. 3/n
LFM2-Audio er en ny omnimodal arkitektur som støtter både tekst OG lyd som førsteklasses modaliteter, både i inngang og utgang. På inngangssiden tar modellen inn og tokeniserer både teksttokens og lydtokens i det samme latente rommet. På utgangssiden genererer modellen autoregressivt og fleksibelt tokens av begge modalitetene, avhengig av oppgaven. 4/n
15,3K