Idag utökar vi vår LFM2-familj till att även omfatta ljud. 👂👄 LFM2-Audio är en heltäckande omni-foundation-modell för ljud och text och levererar responsiv konversation i realtid på enheten med bara 1,5 miljarder parametrar. En modell. Sömlöst multimodalt stöd. Inga kedjor. > Tal-till-tal > Tal-till-text > Text till tal > Klassificering av ljud > Öppna vikter 10 gånger snabbare slutsatsdragning jämfört med jämnåriga, med rivaliserande kvalitetssystem som är 10 gånger större. 1/n 🧵
LFM2-Audio-1.5B presterar bäst i klassen med stor marginal på konversationsbaserad tal-till-tal-chatt – konkurrenskraftig med större öppna modeller, som Qwen2.5-Omni-3B (5B), Lyra-Base (9B) och GLM-4-Voice (9B). 2/n
Effektivitet är nyckeln för interaktiva ljudscenarier i realtid. LFM2-Audio-1.5B har en genomsnittlig latens från ände till ände på under 100 ms, vilket framhäver suverän effektivitet, till och med snabbare än modeller med mycket färre än 1,5 B-parametrar. 3/n
LFM2-Audio är en ny omni-modal arkitektur som stöder både text OCH ljud som förstklassiga modaliteter, i både ingång och utdata. På indatasidan tar modellen in och tokeniserar både texttoken och ljudtoken i samma latenta utrymme. På utdatasidan genererar modellen automatiskt och flexibelt token av båda modaliteterna, beroende på uppgiften. 4/n
39,65K