RLAD (抽象化と演繹による強化学習) は、2 人用セットアップを使用して RL 経由でモデルをトレーニングします。 ▪️ 抽象化ジェネレーター – 重要な事実と戦略を要約する短い自然言語の「推論ヒント」(抽象化)を提案します。 ▪️ ソリューションジェネレーター – それらを使用して問題を解決します。 この方法は「推論方法」と「答え方」を分離し、標準的なロングチェーン推論方法よりも~44%の改善を達成します。 仕組みは次のとおりです。