من المثير للاهتمام أن نرى Bytedance يعمل على حل مشكلة التدرج 0. فكرتهم هي معالجتها من خلال ميزانية الحوسبة التكيفية. نحن نتعامل معها من منظور المكافأة. عادة ما يستخدم تدريب GRPO مجموعات بيانات صغيرة ومنسقة بعناية ، ويجب أن تكون البيانات صعبة حقا لتوفير إشارات تعليمية غنية وتمكين الاكتشاف. سيؤدي التدريب على البيانات الأسهل إلى زيادة شحذ ما رآه النموذج بالفعل في SFT / ما قبل التدريب!