Es interesante ver a Bytedance trabajando en la solución del problema del gradiente cero. Su idea es abordarlo a través de un presupuesto de computación adaptativo; nosotros lo abordamos desde una perspectiva de recompensa. El entrenamiento de GRPO típicamente utiliza conjuntos de datos pequeños y cuidadosamente seleccionados, los datos necesitan ser realmente difíciles para proporcionar señales de aprendizaje ricas y permitir el descubrimiento. ¡Entrenar con datos más fáciles solo agudizará lo que el modelo ya ha visto en SFT/pre-entrenamiento!