一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

今天，我们将我们的LFM2家族扩展到音频。👂👄 LFM2-Audio是一个端到端的音频-文本全能基础模型，能够在设备上以仅1.5B参数提供响应式、实时的对话。一个模型。无缝的多模态支持。没有链条。 > 语音到语音 > 语音到文本 > 文本到语音 > 音频分类 > 开放权重与同类产品相比，推理速度快10倍，质量可与10倍更大系统相媲美。 1/n 🧵

LFM2-Audio-1.5B 在对话语音到语音聊天中表现出色，远超同类产品，竞争力与更大规模的开放模型相当，如 Qwen2.5-Omni-3B (5B)、Lyra-Base (9B) 和 GLM-4-Voice (9B)。 2/n

效率是互动实时音频场景的关键。 LFM2-Audio-1.5B 的平均端到端延迟低于 100 毫秒，突显出卓越的效率，甚至比参数少于 15 亿的模型还要快。 3/n

LFM2-Audio 是一种新颖的全模态架构，支持文本和音频作为第一类模态，既可以作为输入也可以作为输出。在输入方面，该模型将文本标记和音频标记输入并标记化到同一潜在空间中。在输出方面，该模型根据任务自回归和灵活地生成任一模态的标记。 4/n

39.3K