Il est intéressant de voir Bytedance travailler sur la résolution du problème du gradient nul. Leur idée est de l'aborder par le biais d'un budget de calcul adaptatif ; nous l'abordons d'un point de vue de récompense. L'entraînement GRPO utilise généralement de petits ensembles de données soigneusement sélectionnés, les données doivent être vraiment difficiles pour fournir des signaux d'apprentissage riches et permettre la découverte. S'entraîner sur des données plus faciles ne fera que renforcer ce que le modèle a déjà vu lors de la SFT/pré-entraînement !