Mielenkiintoista nähdä Bytedancen työskentelevän 0-gradienttiongelman ratkaisemiseksi. Heidän ideansa on ratkaista se mukautuvan laskentabudjetin avulla; Lähestymme sitä palkitsemisen näkökulmasta. GRPO-koulutuksessa käytetään tyypillisesti pieniä, huolellisesti kuratoituja tietojoukkoja, ja tietojen on oltava todella vaikeita, jotta ne voivat tarjota rikkaita oppimissignaaleja ja mahdollistaa löytämisen. Helpomman datan harjoittelu vain terävöittää sitä, mitä malli on jo nähnyt SFT:ssä/esikoulutuksessa!