اليوم ، نقوم بتوسيع عائلة LFM2 الخاصة بنا إلى الصوت. 👂👄 LFM2-Audio هو نموذج أساسي متعدد الأشكال للنص الصوتي من طرف إلى طرف ، ويوفر محادثة سريعة الاستجابة في الوقت الفعلي على الجهاز بمعلمات 1.5 مليار فقط. نموذج واحد. دعم سلس متعدد الوسائط. لا سلاسل. > تحويل الكلام إلى كلام > تحويل الكلام إلى نص > تحويل النص إلى كلام > تصنيف الصوت > الأوزان المفتوحة استدلال أسرع 10 مرات مقابل الأقران ، مع أنظمة منافسة عالية الجودة أكبر بمقدار 10 مرات. 1/ن 🧵
أداء LFM2-Audio-1.5B هو الأفضل في فئته بهامش كبير في الدردشة بين الكلام إلى كلام - تنافسية مع الطرز المفتوحة الأكبر حجما ، مثل Qwen2.5-Omni-3B (5B) و Lyra-Base (9B) و GLM-4-Voice (9B). 2/ن
الكفاءة هي المفتاح لسيناريوهات الصوت التفاعلية في الوقت الفعلي. يتميز LFM2-Audio-1.5B بمتوسط زمن انتقال شامل أقل من 100 مللي ثانية ، مما يسلط الضوء على الكفاءة الفائقة ، حتى أسرع من الموديلات ذات المعلمات الأقل بكثير من 1.5 ميل. 3/ن
LFM2-Audio عبارة عن بنية جديدة متعددة الوسائط تدعم كلا من النص والصوت كطرائق من الدرجة الأولى ، في كل من الإدخال والإخراج. على جانب الإدخال، يقوم النموذج بأخذ كل من الرموز المميزة للنص والرموز المميزة للصوت وترميزها في نفس المساحة الكامنة. على جانب الإخراج ، يولد النموذج بشكل ذاتي ومرن رموز مميزة لأي من الطريقتين ، اعتمادا على المهمة. 4/ن
‏‎39.81‏K