🧵 بينما تتسابق مختبرات الذكاء الاصطناعي لتوسيع نطاق RL ، هناك سؤال واحد مهم: متى يجب أن تتوقف عن التدريب المسبق وتبدأ RL؟ قمنا بتدريب 5 طرازات Qwen (0.6B→14B) مع RL على GSM8K ووجدنا شيئا جامحا: ترى النماذج الصغيرة قفزات شبيهة بالظهور. تشهد الموديلات الكبيرة عوائد متناقصة. قانون التحجيم؟ ليس ما تتوقعه