RLAD (Reinforcement Learning mit Abstraktion und Deduktion) trainiert Modelle über RL mit einem 2-Spieler-Setup: ▪️ Ein Abstraktionsgenerator – schlägt kurze, natürliche "Denkanstöße" (Abstraktionen) vor, die wichtige Fakten und Strategien zusammenfassen. ▪️ Ein Lösungsgenerator – nutzt diese, um Probleme zu lösen. Diese Methode trennt "wie man denkt" von "wie man antwortet" und erzielt eine Verbesserung von ~44% im Vergleich zu standardmäßigen Langkettendenkmethoden. So funktioniert es: