Dziś rozszerzamy naszą rodzinę LFM2 o audio. 👂👄 LFM2-Audio to model omni foundation audio-tekst, który działa w trybie end-to-end i zapewnia responsywną, w czasie rzeczywistym rozmowę na urządzeniu przy zaledwie 1,5 miliarda parametrów. Jeden model. Bezproblemowe wsparcie multimodalne. Bez łańcuchów. > Mowa na mowę > Mowa na tekst > Tekst na mowę > Klasyfikacja audio > Otwarte wagi 10x szybsza inferencja w porównaniu do konkurencji, z jakością rywalizującą z systemami 10x większymi. 1/n 🧵
LFM2-Audio-1.5B osiąga najlepsze wyniki w swojej klasie w rozmowach głosowych – konkurując z większymi modelami otwartymi, takimi jak Qwen2.5-Omni-3B (5B), Lyra-Base (9B) i GLM-4-Voice (9B). 2/n
Efektywność jest kluczowa w interaktywnych scenariuszach audio w czasie rzeczywistym. LFM2-Audio-1.5B ma średnie opóźnienie end-to-end poniżej 100 ms, co podkreśla doskonałą efektywność, nawet szybszą niż modele z dużo mniejszą liczbą niż 1,5B parametrów. 3/n
LFM2-Audio to nowa architektura omni-modalna, która obsługuje zarówno tekst, jak i audio jako pierwszorzędne modalności, zarówno w wejściu, jak i wyjściu. Po stronie wejściowej model przyjmuje i tokenizuje zarówno tokeny tekstowe, jak i tokeny audio w tej samej przestrzeni latentnej. Po stronie wyjściowej model autoregresywnie i elastycznie generuje tokeny dowolnej modalności, w zależności od zadania. 4/n
38,4K