Dnes rozšiřujeme naši rodinu LFM2 o audio. 👂👄 LFM2-Audio je end-to-end audiotextový všeobecný model a poskytuje responzivní konverzaci v reálném čase na zařízení s pouhými 1,5B parametry. Jeden model. Bezproblémová multimodální podpora. Žádné řetězy. > Převod řeči na řeč > převod řeči na text > Převod textu na řeč Klasifikace > Audio > Otevřená závaží 10x rychlejší inference oproti vrstevníkům, s kvalitními konkurenčními systémy 10x většími. 1/n 🧵
LFM2-Audio-1.5B dosahuje nejlepších výsledků ve své třídě v konverzačním chatu s řečí na řeč – konkuruje větším otevřeným modelům, jako jsou Qwen2.5-Omni-3B (5B), Lyra-Base (9B) a GLM-4-Voice (9B). 2/N
Efektivita je klíčová pro interaktivní zvukové scénáře v reálném čase. LFM2-Audio-1.5B má průměrnou latenci mezi koncovými body pod 100 ms, což zdůrazňuje vynikající účinnost, dokonce rychlejší než modely s mnohem méně než 1,5B parametry. 3/n
LFM2-Audio je nová omnimodální architektura, která podporuje text i zvuk jako prvotřídní modality, a to jak na vstupu, tak na výstupu. Na vstupní straně model přijímá a tokenizuje textové i zvukové tokeny do stejného latentního prostoru. Na výstupní straně model autoregresně a flexibilně generuje tokeny obou modalit v závislosti na úloze. 4/N
26,8K