Oggi espandiamo la nostra famiglia LFM2 all'audio. 👂👄 LFM2-Audio è un modello fondazione audio-testo omni end-to-end, e offre conversazioni reattive e in tempo reale sul dispositivo con soli 1,5 miliardi di parametri. Un modello. Supporto multimodale senza soluzione di continuità. Nessuna catena. > Da voce a voce > Da voce a testo > Da testo a voce > Classificazione audio > Pesi aperti Inferenza 10 volte più veloce rispetto ai concorrenti, con qualità che rivaleggia sistemi 10 volte più grandi. 1/n 🧵
LFM2-Audio-1.5B offre prestazioni di livello superiore con un ampio margine nel chat conversazionale da voce a voce – competitivo con modelli open più grandi, come Qwen2.5-Omni-3B (5B), Lyra-Base (9B) e GLM-4-Voice (9B). 2/n
L'efficienza è fondamentale per scenari audio interattivi in tempo reale. LFM2-Audio-1.5B ha una latenza end-to-end media di meno di 100 ms, evidenziando un'efficienza superba, anche più veloce di modelli con molto meno di 1.5B parametri. 3/n
LFM2-Audio è una nuova architettura omni-modale che supporta sia il testo CHE l'audio come modalità di prima classe, sia in input che in output. Dal lato dell'input, il modello acquisisce e tokenizza sia i token di testo che i token audio nello stesso spazio latente. Dal lato dell'output, il modello genera in modo autoregressivo e flessibile token di una delle due modalità, a seconda del compito. 4/n
38,4K