Menarik untuk melihat Bytedance bekerja untuk memecahkan masalah gradien 0. Ide mereka adalah untuk mengatasinya melalui anggaran komputasi adaptif; Kami mendekatinya dari perspektif penghargaan. Pelatihan GRPO biasanya menggunakan kumpulan data kecil yang dikuratori dengan hati-hati, data harus sangat sulit untuk memberikan sinyal pembelajaran yang kaya dan memungkinkan penemuan. Pelatihan pada data yang lebih mudah hanya akan mempertajam apa yang telah dilihat model di SFT/pra-pelatihan!