Heute erweitern wir unsere LFM2-Familie um Audio. 👂👄 LFM2-Audio ist ein End-to-End-Audio-Text-Omni-Grundlagenmodell und ermöglicht reaktionsschnelle, Echtzeit-Konversationen direkt auf dem Gerät mit nur 1,5 Milliarden Parametern. Ein Modell. Nahtlose multimodale Unterstützung. Keine Ketten. > Sprach-zu-Sprach > Sprach-zu-Text > Text-zu-Sprach > Audio-Klassifizierung > Offene Gewichte 10x schnellere Inferenz im Vergleich zu Mitbewerbern, mit einer Qualität, die mit Systemen konkurriert, die 10x größer sind. 1/n 🧵
LFM2-Audio-1.5B bietet in der Konversation von Sprache zu Sprache die beste Leistung in seiner Klasse – konkurrenzfähig mit größeren offenen Modellen wie Qwen2.5-Omni-3B (5B), Lyra-Base (9B) und GLM-4-Voice (9B). 2/n
Effizienz ist der Schlüssel für interaktive Echtzeitaudio-Szenarien. LFM2-Audio-1.5B hat eine durchschnittliche End-to-End-Latenz von unter 100 ms, was eine hervorragende Effizienz unterstreicht, sogar schneller als Modelle mit deutlich weniger als 1,5 Milliarden Parametern. 3/n
LFM2-Audio ist eine neuartige omni-modale Architektur, die sowohl Text als auch Audio als erstklassige Modalitäten unterstützt, sowohl im Input als auch im Output. Auf der Eingabeseite nimmt das Modell sowohl Text- als auch Audio-Token auf und tokenisiert sie in denselben latenten Raum. Auf der Ausgabeseite generiert das Modell autoregressiv und flexibel Token einer der Modalitäten, abhängig von der Aufgabe. 4/n
22,38K