RLAD (Apprendimento per rinforzo con astrazione e deduzione) addestra modelli tramite RL utilizzando una configurazione a 2 giocatori: ▪️ Un generatore di astrazioni – propone brevi "suggerimenti di ragionamento" in linguaggio naturale (astrazioni) che riassumono fatti e strategie chiave. ▪️ Un generatore di soluzioni – li utilizza per risolvere problemi. Questo metodo separa "come ragionare" da "come rispondere," ottenendo un miglioramento di ~44% rispetto ai metodi standard di ragionamento a lungo termine. Ecco come funziona: