RLAD (Reinforcement Learning with Abstraction and Deduction) antrenează modele prin RL folosind o configurație cu 2 jucători: ▪️ Un generator de abstractizare – propune scurte "sugestii de raționament" (abstracții) în limbaj natural care rezumă fapte și strategii cheie. ▪️ Un generator de soluții – le folosește pentru a rezolva probleme. Această metodă separă "cum să raționezi" de "cum să răspundeți", obținând o îmbunătățire de ~44% față de metodele standard de raționament cu lanț lung. Iată cum funcționează: