今天,我们将我们的LFM2家族扩展到音频。👂👄 LFM2-Audio是一个端到端的音频-文本全能基础模型,能够在设备上以仅1.5B参数提供响应式、实时的对话。 一个模型。无缝的多模态支持。没有链条。 > 语音到语音 > 语音到文本 > 文本到语音 > 音频分类 > 开放权重 与同类产品相比,推理速度快10倍,质量可与10倍更大系统相媲美。 1/n 🧵
LFM2-Audio-1.5B 在对话语音到语音聊天中表现出色,远超同类产品,竞争力与更大规模的开放模型相当,如 Qwen2.5-Omni-3B (5B)、Lyra-Base (9B) 和 GLM-4-Voice (9B)。 2/n
效率是互动实时音频场景的关键。 LFM2-Audio-1.5B 的平均端到端延迟低于 100 毫秒,突显出卓越的效率,甚至比参数少于 15 亿的模型还要快。 3/n
LFM2-Audio 是一种新颖的全模态架构,支持文本和音频作为第一类模态,既可以作为输入也可以作为输出。 在输入方面,该模型将文本标记和音频标记输入并标记化到同一潜在空间中。 在输出方面,该模型根据任务自回归和灵活地生成任一模态的标记。 4/n
39.3K