È interessante vedere Bytedance lavorare per risolvere il problema del gradiente zero. La loro idea è affrontarlo attraverso un budget computazionale adattivo; noi lo affrontiamo da una prospettiva di ricompensa. L'addestramento GRPO di solito utilizza piccoli dataset accuratamente curati, i dati devono essere davvero difficili per fornire segnali di apprendimento ricchi e abilitare la scoperta. Addestrare su dati più facili affinerà solo ciò che il modello ha già visto in SFT/pre-addestramento!