現在、LFM2ファミリーをオーディオに拡張します。👂👄 LFM2-Audio は、エンドツーエンドのオーディオ テキスト オムニ ファウンデーション モデルであり、わずか 1.5B のパラメーターでデバイス上で応答性の高いリアルタイム会話を提供します。 1つのモデル。シームレスなマルチモーダルサポート。チェーンはありません。 > 音声読み上げ > 音声テキスト変換 > テキスト読み上げ > オーディオ分類 > オープンウェイト 同業他社と比較して 10 倍速い推論を実現し、10 倍の規模のシステムに匹敵する品質を備えています。 1/n 🧵
LFM2-Audio-1.5Bは、会話型音声対音声チャットでクラス最高のパフォーマンスを発揮し、Qwen2.5-Omni-3B(5B)、Lyra-Base(9B)、GLM-4-Voice(9B)などの大型オープンモデルと競合します。2/n
インタラクティブなリアルタイムオーディオシナリオでは、効率が重要です。 LFM2-Audio-1.5B の平均エンドツーエンド遅延は 100 ミリ秒未満で、パラメーターが 1.5B よりはるかに少ないモデルよりもさらに高速で、優れた効率を誇っています。3/n
LFM2-Audioは、入力と出力の両方で、テキストとオーディオの両方をファーストクラスのモダリティとしてサポートする新しいオムニモーダルアーキテクチャです。 入力側では、モデルはテキストトークンと音声トークンの両方を同じ潜在空間に取り込んでトークン化します。 出力側では、モデルはタスクに応じて、いずれかのモダリティのトークンを自己回帰的かつ柔軟に生成します。4/n
39.81K