المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
اليوم ، نقوم بتوسيع عائلة LFM2 الخاصة بنا إلى الصوت. 👂👄
LFM2-Audio هو نموذج أساسي متعدد الأشكال للنص الصوتي من طرف إلى طرف ، ويوفر محادثة سريعة الاستجابة في الوقت الفعلي على الجهاز بمعلمات 1.5 مليار فقط.
نموذج واحد. دعم سلس متعدد الوسائط. لا سلاسل.
> تحويل الكلام إلى كلام
> تحويل الكلام إلى نص
> تحويل النص إلى كلام
> تصنيف الصوت
> الأوزان المفتوحة
استدلال أسرع 10 مرات مقابل الأقران ، مع أنظمة منافسة عالية الجودة أكبر بمقدار 10 مرات.
1/ن 🧵
أداء LFM2-Audio-1.5B هو الأفضل في فئته بهامش كبير في الدردشة بين الكلام إلى كلام - تنافسية مع الطرز المفتوحة الأكبر حجما ، مثل Qwen2.5-Omni-3B (5B) و Lyra-Base (9B) و GLM-4-Voice (9B). 2/ن

الكفاءة هي المفتاح لسيناريوهات الصوت التفاعلية في الوقت الفعلي.
يتميز LFM2-Audio-1.5B بمتوسط زمن انتقال شامل أقل من 100 مللي ثانية ، مما يسلط الضوء على الكفاءة الفائقة ، حتى أسرع من الموديلات ذات المعلمات الأقل بكثير من 1.5 ميل. 3/ن

LFM2-Audio عبارة عن بنية جديدة متعددة الوسائط تدعم كلا من النص والصوت كطرائق من الدرجة الأولى ، في كل من الإدخال والإخراج.
على جانب الإدخال، يقوم النموذج بأخذ كل من الرموز المميزة للنص والرموز المميزة للصوت وترميزها في نفس المساحة الكامنة.
على جانب الإخراج ، يولد النموذج بشكل ذاتي ومرن رموز مميزة لأي من الطريقتين ، اعتمادا على المهمة. 4/ن
39.81K
الأفضل
المُتصدِّرة
التطبيقات المفضلة