Сьогодні ми розширюємо лінійку LFM2 до аудіо. 👂👄 LFM2-Audio — це наскрізна модель універсального аудіотексту, яка забезпечує чуйну розмову в реальному часі на пристрої з параметрами лише 1,5 В. Одна модель. Безшовна мультимодальна підтримка. Ніяких ланцюгів. > Перетворення мовлення в мовлення > Перетворення мовлення в текст > Перетворення тексту в мовлення > Класифікація аудіо > Відкриті ваги У 10 разів швидше висновування порівняно з аналогами, з якісними конкуруючими системами в 10 разів більшими. 1/п 🧵
LFM2-Audio-1.5B показує найкращі результати у своєму класі з великим відривом у розмовному чаті перетворення мовлення та мовлення – конкурує з більшими відкритими моделями, такими як Qwen2.5-Omni-3B (5B), Lyra-Base (9B) та GLM-4-Voice (9B). 2/п
Ефективність є ключовим фактором для інтерактивних сценаріїв аудіо в реальному часі. LFM2-Audio-1.5B має середню наскрізну затримку менше 100 мс, що підкреслює чудову ефективність, навіть швидшу, ніж моделі з параметрами набагато менше 1,5 В. 3/п
LFM2-Audio - це нова всемодальна архітектура, яка підтримує як текст, так і звук як першокласні способи, як на вході, так і на виході. На стороні вводу модель приймає та токенізує як текстові, так і аудіо токени в одному латентному просторі. На стороні виводу модель авторегресивно та гнучко генерує токени будь-якої модальності, залежно від завдання. 4/п
32,38K