Astăzi, ne extindem familia LFM2 la audio. 👂👄 LFM2-Audio este un model de bază omni-text audio-text end-to-end și oferă conversații receptive, în timp real, pe dispozitiv, la doar 1,5 miliarde de parametri. Un model. Suport multimodal fără întreruperi. Fără lanțuri. > Vorbire în vorbire > Vorbire în text > Text-to-speech > Clasificare audio > Greutăți deschise Inferență de 10 ori mai rapidă față de colegi, cu sisteme rivale de calitate de 10 ori mai mari. 1/n 🧵
LFM2-Audio-1.5B are cele mai bune performanțe din clasă cu o marjă mare în chat-ul conversațional de vorbire în vorbire - competitiv cu modelele deschise mai mari, cum ar fi Qwen2.5-Omni-3B (5B), Lyra-Base (9B) și GLM-4-Voice (9B). 2/n
Eficiența este esențială pentru scenariile audio interactive în timp real. LFM2-Audio-1.5B are o latență medie end-to-end de sub 100 ms, evidențiind o eficiență superbă, chiar mai rapidă decât modelele cu parametri mult mai mici de 1.5B. 3/n
LFM2-Audio este o nouă arhitectură omni-modală care acceptă atât textul, cât și sunetul ca modalități de primă clasă, atât la intrare, cât și la ieșire. Pe partea de intrare, modelul introduce și tokenizează atât tokenurile text, cât și tokenurile audio în același spațiu latent. Pe partea de ieșire, modelul generează în mod autoregresiv și flexibil jetoane de oricare dintre modalități, în funcție de sarcină. 4/n
39,3K