Interesant de văzut Bytedance lucrând la rezolvarea problemei gradientului 0. Ideea lor este să o abordeze printr-un buget de calcul adaptiv; O abordăm din perspectiva recompensei. Antrenamentul GRPO folosește de obicei seturi de date mici, atent organizate, datele trebuie să fie foarte dificile pentru a oferi semnale bogate de învățare și pentru a permite descoperirea. Antrenamentul pe date mai ușoare va îmbunătăți ceea ce modelul a văzut deja în SFT/pre-antrenament!