热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
今天,我们将我们的LFM2家族扩展到音频。👂👄
LFM2-Audio是一个端到端的音频-文本全能基础模型,能够在设备上以仅1.5B参数提供响应式、实时的对话。
一个模型。无缝的多模态支持。没有链条。
> 语音到语音
> 语音到文本
> 文本到语音
> 音频分类
> 开放权重
与同类产品相比,推理速度快10倍,质量可与10倍更大系统相媲美。
1/n 🧵
LFM2-Audio-1.5B 在对话语音到语音聊天中表现出色,远超同类产品,竞争力与更大规模的开放模型相当,如 Qwen2.5-Omni-3B (5B)、Lyra-Base (9B) 和 GLM-4-Voice (9B)。 2/n

效率是互动实时音频场景的关键。
LFM2-Audio-1.5B 的平均端到端延迟低于 100 毫秒,突显出卓越的效率,甚至比参数少于 15 亿的模型还要快。 3/n

LFM2-Audio 是一种新颖的全模态架构,支持文本和音频作为第一类模态,既可以作为输入也可以作为输出。
在输入方面,该模型将文本标记和音频标记输入并标记化到同一潜在空间中。
在输出方面,该模型根据任务自回归和灵活地生成任一模态的标记。 4/n
39.3K
热门
排行
收藏