Zajímavé je vidět Bytedance pracující na řešení problému 0-gradientu. Jejich představa je řešit to prostřednictvím adaptivního výpočetního rozpočtu; Přistupujeme k tomu z pohledu odměňování. Školení GRPO obvykle používá malé, pečlivě vybrané datové sady, data musí být opravdu těžká, aby poskytovala bohaté učební signály a umožňovala objevování. Trénování na jednodušších datech jen zostřuje to, co model již viděl v SFT/pre-tréninku!