RLAD (Reinforcement Learning with Abstraction and Deduction) tränar modeller via RL med hjälp av en 2-spelaruppställning: ▪️ En abstraktionsgenerator - föreslår korta, naturliga "resonemangstips" (abstraktioner) som sammanfattar viktiga fakta och strategier. ▪️ En lösningsgenerator – använder dem för att lösa problem. Denna metod separerar "hur man resonerar" från "hur man svarar", vilket ger ~44 % förbättring jämfört med vanliga långkedjiga resonemangsmetoder. Så här fungerar det: