هذه تجربة رائعة! إنه ليس قانونا لتوسيع نطاق RL تماما ، بمعنى ما جمعته من عدد قليل من المختبرات الحدودية. الكثير من الأشياء متشابهة ، لكن أساليبهم لإقامة هذه العلاقات تبدو مختلفة بعض الشيء. أولا ، يستخدمون بالتأكيد مجموعة من النماذج الأساسية نوعا ما من هذا القبيل. رغم ذلك ، ليس من الواضح بالنسبة لي ما إذا كان الجمع بين GSM8K خاصة مع Qwen 3 هو اقتران جيد. من السهل جدا أن تكون مشكلة بالنسبة لتلك النماذج ومن المحتمل أن تكون هدفا للتدريب المسبق أو التدريب المتوسط مباشرة. للتخفيف من ذلك ، فإن الشيء المستخدم للنظر في توسيع نطاق المختبرات هو دقة التحقق من الصحة على مجموعة فرعية من مشاكل التدريب. يوضح هذا قدرات النماذج على التعلم من مجموعة بيانات معينة. هذا يختلف عن قوانين التحجيم قبل التدريب التي تتنبأ بفقدان مجموعة الاختبار. المجهول الكبير في رأيي هو عدد الخطوات التي يتطلبها نموذج صغير مقابل نموذج كبير للتقارب عبر العديد من تجاربي الشخصية (والمناقشات) ، يبدو على الأرجح أن العارضات الكبيرة تحتاج بالفعل إلى خطوات أقل ، لذا فإن الحبكة التي شاركتها تعطيني بعض المخاوف. بعد ذلك ، ما تفعله المختبرات هو التنبؤ بالأداء النهائي من الشكل الأولي لمنحنيات RL. هذا أيضا أسهل بكثير مع البنية التحتية الفائقة التي تكون أكثر استقرارا على فترات طويلة. يبدو هذا أقرب إلى قوانين القياس التقليدية قبل التدريب حيث تقوم بتدريب كل نموذج على مضاعفات الرموز المميزة ل Chinchilla. هذا أيضا لا يأخذ في الحسبان تحجيم المعلمات الفائقة المختلفة. جزء كبير من تطبيق قوانين القياس هو التعلم بشكل صحيح لكيفية قياس المعلمات الرئيسية للنموذج. بالنسبة للتدريب المسبق ، غالبا ما يكون معدل التعلم (LR) ، وجدول LR ، وتعديلات حجم الدفعة. كانت RL في تجربتي أقل حساسية بكثير لمعدل التعلم من التدريب المسبق.