تعرف على LFM2-8B-A1B ، أول مزيج من الخبراء (MoE) على الجهاز! 🐘 > LFM2-8B-A1B هو أفضل وزارة التربية على الجهاز من حيث الجودة والسرعة. > أداء فئة طراز 3B-4B ، مع ملف تعريف استدلال أسرع يصل إلى 5 مرات على وحدات المعالجة المركزية ووحدات معالجة الرسومات. > تتناسب المتغيرات الكمية بشكل مريح مع الهواتف والأجهزة اللوحية وأجهزة الكمبيوتر المحمولة المتطورة. تمكين التطبيقات السريعة والخاصة بزمن انتقال منخفض عبر الهواتف الحديثة والأجهزة اللوحية وأجهزة الكمبيوتر المحمولة والأنظمة المضمنة. 1/ن 🧵
يتمتع LFM2-8B-A1B بقدرة معرفية أكبر من النماذج المنافسة ويتم تدريبه على توفير استدلال الجودة عبر مجموعة متنوعة من القدرات. منها: > المعرفة > التعليمات التالية > الرياضيات ترجمة > اللغات 2/ن
معمار. تركز معظم أبحاث وزارة التربية والتعليم على النماذج السحابية في إعدادات خدمة الدفعات واسعة النطاق. بالنسبة للتطبيقات الموجودة على الجهاز ، فإن المفتاح هو تحسين زمن الوصول واستهلاك الطاقة في ظل متطلبات الذاكرة الصارمة. LFM2-8B-A1B هو أحد النماذج الأولى التي تتحدى الاعتقاد الشائع بأن بنية وزارة التربية والتعليم ليست فعالة في أحجام المعلمات الأصغر. يسمح LFM2-8B-A1B بتداول مساحة ذاكرة أكبر قليلا للحصول على جودة أعلى مع الحفاظ على زمن انتقال منخفض واستهلاك الطاقة. يحافظ LFM2-8B-A1B على العمود الفقري السريع ل LFM2 ويقدم شبكات تغذية أمامية متفرقة لوزارة الطاقة لإضافة سعة تمثيلية دون زيادة مسار الحوسبة النشط بشكل كبير. > العمود الفقري LFM2: 18 كتلة الالتفاف القصيرة المسورة و 6 كتل GQA. حجم >: 8.3 مليار معلمات إجمالية ، 1.5 مليار معلمات نشطة. > موضع وزارة التربية والتعليم: باستثناء الطبقتين الأوليين، تتضمن جميع الطبقات كتلة وزارة التربية والتعليم. تظل الطبقتان الأوليان كثيفتين لأغراض الاستقرار. > دقة الخبراء: 32 خبيرا لكل كتلة وزارة التربية والتعليم ، مع تطبيق أفضل 4 خبراء نشطين لكل رمز مميز. يوفر هذا التكوين تعزيزا قويا للجودة مقارنة بتكوينات الحبيبات المنخفضة مع الحفاظ على التوجيه السريع والنواة المحمولة. جهاز التوجيه >: بوابة سيني طبيعية مع تحيزات توجيه تكيفية لتحسين موازنة الحمل وديناميكيات التدريب. 3/ن
عبر الأجهزة الموجودة على وحدة المعالجة المركزية ، يعد LFM2-8B-A1B أسرع بكثير من أسرع المتغيرات من Qwen3-1.7B و IBM Granite 4.0 وغيرها. 4/ن
بالإضافة إلى دمج LFM2-8B-A1B على llama.cpp و ExecuTorch للتحقق من كفاءة الاستدلال على أجهزة وحدة المعالجة المركزية فقط ، قمنا أيضا بدمج النموذج في vLLM للنشر على وحدة معالجة الرسومات في كل من إعدادات الطلب الفردي والمجمعة عبر الإنترنت. لا يتفوق طراز 8B LFM2 MoE الخاص بنا على النماذج ذات الحجم المماثل على وحدة المعالجة المركزية فحسب ، بل يتفوق أيضا على نفس الطرز الموجودة على وحدة معالجة الرسومات (1xH100) مع تجميع كامل للرسم البياني CUDA أثناء فك التشفير والرسم البياني CUDA المجزأ أثناء التعبئة المسبقة. 5 / ن
‏‎62.97‏K