Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Hôm nay, chúng tôi mở rộng gia đình LFM2 của mình sang âm thanh. 👂👄 LFM2-Audio là một mô hình nền tảng âm thanh-văn bản toàn diện từ đầu đến cuối, cung cấp cuộc trò chuyện phản hồi, thời gian thực trên thiết bị với chỉ 1,5B tham số. Một mô hình. Hỗ trợ đa phương tiện liền mạch. Không có chuỗi. > Giọng nói thành giọng nói > Giọng nói thành văn bản > Văn bản thành giọng nói > Phân loại âm thanh > Trọng số mở Nhanh hơn 10 lần so với các đối thủ, với chất lượng cạnh tranh với các hệ thống lớn gấp 10 lần. 1/n 🧵

LFM2-Audio-1.5B hoạt động tốt nhất trong lớp với khoảng cách lớn trong trò chuyện chuyển đổi giọng nói – cạnh tranh với các mô hình mở lớn hơn, chẳng hạn như Qwen2.5-Omni-3B (5B), Lyra-Base (9B), và GLM-4-Voice (9B). 2/n

Hiệu suất là yếu tố then chốt cho các tình huống âm thanh tương tác thời gian thực. LFM2-Audio-1.5B có độ trễ trung bình từ đầu đến cuối dưới 100 ms, cho thấy hiệu suất tuyệt vời, thậm chí nhanh hơn cả các mô hình có ít hơn 1.5B tham số. 3/n

LFM2-Audio là một kiến trúc đa phương thức mới hỗ trợ cả văn bản VÀ âm thanh như những phương thức chính, cả trong đầu vào và đầu ra. Ở phía đầu vào, mô hình tiếp nhận và phân tách cả các token văn bản và token âm thanh vào cùng một không gian tiềm ẩn. Ở phía đầu ra, mô hình tự hồi quy và linh hoạt tạo ra các token của bất kỳ phương thức nào, tùy thuộc vào nhiệm vụ. 4/n

35,78K

Hàng đầu

Thứ hạng

Yêu thích