Het is interessant om te zien dat Bytedance werkt aan het oplossen van het 0-gradiënt probleem. Hun idee is om dit aan te pakken via een adaptief rekenbudget; wij benaderen het vanuit een beloningsperspectief. GRPO-training maakt doorgaans gebruik van kleine, zorgvuldig samengestelde datasets, de data moet echt moeilijk zijn om rijke leersignalen te bieden en ontdekking mogelijk te maken. Trainen op gemakkelijkere data zal gewoon scherpere resultaten opleveren van wat het model al heeft gezien in SFT/pre-training!