RLAD (Reinforcement Learning with Abstraction and Deduction) entrena modelos a través de RL utilizando una configuración de 2 jugadores: ▪️ Un generador de abstracción: propone breves "sugerencias de razonamiento" (abstracciones) en lenguaje natural que resumen hechos y estrategias clave. ▪️ Un generador de soluciones: los utiliza para resolver problemas. Este método separa "cómo razonar" de "cómo responder", logrando una mejora de ~ 44% sobre los métodos estándar de razonamiento de cadena larga. Así es como funciona: