Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dziś rozszerzamy naszą rodzinę LFM2 o audio. 👂👄
LFM2-Audio to model omni foundation audio-tekst, który działa w trybie end-to-end i zapewnia responsywną, w czasie rzeczywistym rozmowę na urządzeniu przy zaledwie 1,5 miliarda parametrów.
Jeden model. Bezproblemowe wsparcie multimodalne. Bez łańcuchów.
> Mowa na mowę
> Mowa na tekst
> Tekst na mowę
> Klasyfikacja audio
> Otwarte wagi
10x szybsza inferencja w porównaniu do konkurencji, z jakością rywalizującą z systemami 10x większymi.
1/n 🧵
LFM2-Audio-1.5B osiąga najlepsze wyniki w swojej klasie w rozmowach głosowych – konkurując z większymi modelami otwartymi, takimi jak Qwen2.5-Omni-3B (5B), Lyra-Base (9B) i GLM-4-Voice (9B). 2/n

Efektywność jest kluczowa w interaktywnych scenariuszach audio w czasie rzeczywistym.
LFM2-Audio-1.5B ma średnie opóźnienie end-to-end poniżej 100 ms, co podkreśla doskonałą efektywność, nawet szybszą niż modele z dużo mniejszą liczbą niż 1,5B parametrów. 3/n

LFM2-Audio to nowa architektura omni-modalna, która obsługuje zarówno tekst, jak i audio jako pierwszorzędne modalności, zarówno w wejściu, jak i wyjściu.
Po stronie wejściowej model przyjmuje i tokenizuje zarówno tokeny tekstowe, jak i tokeny audio w tej samej przestrzeni latentnej.
Po stronie wyjściowej model autoregresywnie i elastycznie generuje tokeny dowolnej modalności, w zależności od zadania. 4/n
38,4K
Najlepsze
Ranking
Ulubione