RLAD (Reinforcement Learning with Abstraction and Deduction) traint modellen via RL met een 2-speler opzet: ▪️ Een abstractiegenerator – stelt korte, natuurlijke "redeneringshints" (abstracties) voor die belangrijke feiten en strategieën samenvatten. ▪️ Een oplossingsgenerator – gebruikt deze om problemen op te lossen. Deze methode scheidt "hoe te redeneren" van "hoe te antwoorden," wat resulteert in een verbetering van ~44% ten opzichte van standaard lange-keten redeneringsmethoden. Zo werkt het: