RLAD (Reinforcement Learning with Abstraction and Deduction) trénuje modely pomocí RL pomocí nastavení pro 2 hráče: ▪️ Generátor abstrakcí – navrhuje krátké "rady uvažování" (abstrakce) v přirozeném jazyce shrnující klíčová fakta a strategie. ▪️ Generátor řešení – používá je k řešení problémů. Tato metoda odděluje "jak uvažovat" od "jak odpovědět" a dosahuje ~44% zlepšení oproti standardním metodám uvažování s dlouhým řetězcem. Funguje to následovně: