RLAD (Reinforcement Learning with Abstraction and Deduction) trener modeller via RL ved hjelp av et 2-spilleroppsett: ▪️ En abstraksjonsgenerator – foreslår korte, naturlige "resonneringstips" (abstraksjoner) som oppsummerer viktige fakta og strategier. ▪️ En løsningsgenerator – bruker dem til å løse problemer. Denne metoden skiller "hvordan resonnere" fra "hvordan svare", og oppnår ~44 % forbedring i forhold til standard langkjedede resonneringsmetoder. Slik fungerer det: