RLAD (Reinforcement Learning with Abstraction and Reduction) kouluttaa malleja RL:n kautta käyttämällä 2 pelaajan kokoonpanoa: ▪️ Abstraktiogeneraattori – ehdottaa lyhyitä, luonnollisen kielen "päättelyvihjeitä" (abstraktioita), jotka tiivistävät keskeiset faktat ja strategiat. ▪️ Ratkaisugeneraattori – käyttää niitä ongelmien ratkaisemiseen. Tämä menetelmä erottaa "miten päätellä" ja "miten vastata", jolloin saavutetaan ~44 % parannus tavanomaisiin pitkäketjuisiin päättelymenetelmiin verrattuna. Näin se toimii: