Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoje, expandimos nossa família LFM2 para áudio. 👂👄
O LFM2-Audio é um modelo de base omni de áudio-texto de ponta a ponta e oferece conversas responsivas e em tempo real no dispositivo com apenas 1,5 bilhão de parâmetros.
Um modelo. Suporte multimodal contínuo. Sem correntes.
> Fala para fala
> Conversão de fala em texto
> Conversão de texto em fala
> Classificação de áudio
> Pesos abertos
Inferência 10x mais rápida em comparação com pares, com sistemas rivais de qualidade 10x maiores.
1/n 🧵
O LFM2-Audio-1.5B tem o melhor desempenho da categoria por uma grande margem no bate-papo conversacional de fala para fala - competitivo com modelos abertos maiores, como Qwen2.5-Omni-3B (5B), Lyra-Base (9B) e GLM-4-Voice (9B). 2/n

A eficiência é fundamental para cenários interativos de áudio em tempo real.
O LFM2-Audio-1.5B tem uma latência média de ponta a ponta de menos de 100 ms, destacando uma eficiência excelente, ainda mais rápida do que os modelos com muito menos de 1,5B parâmetros. 3/n

LFM2-Audio é uma nova arquitetura omnimodal que suporta texto E áudio como modalidades de primeira classe, tanto na entrada quanto na saída.
No lado da entrada, o modelo recebe e tokeniza tokens de texto e tokens de áudio no mesmo espaço latente.
No lado da saída, o modelo gera tokens de forma autorregressiva e flexível de qualquer modalidade, dependendo da tarefa. 4/n
22,39K
Melhores
Classificação
Favoritos