DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Hari ini, kami memperluas rangkaian LFM2 kami ke audio. 👂👄 LFM2-Audio adalah model fondasi omni audio-teks end-to-end, dan memberikan percakapan real-time yang responsif di perangkat hanya dengan parameter 1,5 miliar. Satu model. Dukungan multimoda yang mulus. Tidak ada rantai. > Ucapan ke ucapan > Ucapan-ke-teks > Text-to-speech > Klasifikasi audio > Bobot terbuka Inferensi 10x lebih cepat vs rekan-rekan, dengan sistem saingan kualitas 10x lebih besar. 1/n 🧵

LFM2-Audio-1.5B berkinerja terbaik di kelasnya dengan selisih besar pada obrolan ucapan percakapan – bersaing dengan model terbuka yang lebih besar, seperti Qwen2.5-Omni-3B (5B), Lyra-Base (9B), dan GLM-4-Voice (9B). 2/n

Efisiensi adalah kunci untuk skenario audio real-time interaktif. LFM2-Audio-1.5B memiliki latensi end-to-end rata-rata di bawah 100 ms, menyoroti efisiensi luar biasa, bahkan lebih cepat daripada model dengan parameter yang jauh lebih sedikit dari 1,5B. 3/n

LFM2-Audio adalah arsitektur omni-modal baru yang mendukung teks DAN audio sebagai modalitas kelas satu, baik dalam input maupun output. Di sisi input, model memasukkan dan mentokenisasi token teks dan token audio ke dalam ruang laten yang sama. Di sisi output, model secara autoregresif dan fleksibel menghasilkan token dari salah satu modalitas, tergantung pada tugasnya. 4/n

26,8K

Teratas

Peringkat

Favorit