RLAD (Reinforcement Learning with Abstraction and Deduction) treina modelos via RL usando uma configuração de 2 jogadores: ▪️ Um gerador de abstração – propõe "dicas de raciocínio" (abstrações) curtas e em linguagem natural resumindo os principais fatos e estratégias. ▪️ Um gerador de soluções – usa-os para resolver problemas. Este método separa "como raciocinar" de "como responder", alcançando ~ 44% de melhoria em relação aos métodos padrão de raciocínio de cadeia longa. Veja como funciona: