Interesujące jest zobaczyć, jak Bytedance pracuje nad rozwiązaniem problemu zerowego gradientu. Ich pomysł polega na podejściu do tego poprzez adaptacyjny budżet obliczeniowy; my podchodzimy do tego z perspektywy nagrody. Szkolenie GRPO zazwyczaj wykorzystuje małe, starannie dobrane zbiory danych, dane muszą być naprawdę trudne, aby dostarczyć bogate sygnały do nauki i umożliwić odkrywanie. Szkolenie na łatwiejszych danych tylko zaostrzy to, co model już widział w SFT/wstępnym szkoleniu!