RLAD(抽象與推理強化學習)通過 RL 使用 2 玩家設置訓練模型: ▪️ 抽象生成器 – 提出簡短的自然語言“推理提示”(抽象),總結關鍵事實和策略。 ▪️ 解決方案生成器 – 使用它們來解決問題。 這種方法將“如何推理”與“如何回答”分開,實現了約 44% 的改進,相較於標準的長鏈推理方法。 這是它的運作方式: