Es interesante ver a Bytedance trabajando en la resolución del problema del gradiente 0. Su idea es abordarlo a través de un presupuesto de cómputo adaptativo; lo abordamos desde una perspectiva de recompensa. El entrenamiento GRPO generalmente utiliza conjuntos de datos pequeños y cuidadosamente seleccionados, los datos deben ser realmente difíciles para proporcionar señales de aprendizaje ricas y permitir el descubrimiento. ¡El entrenamiento con datos más fáciles solo agudizará lo que el modelo ya ha visto en SFT / pre-entrenamiento!