RLAD(抽象与推理强化学习)通过使用2人设置的RL训练模型: ▪️ 抽象生成器 – 提出简短的自然语言“推理提示”(抽象),总结关键事实和策略。 ▪️ 解决方案生成器 – 使用这些提示来解决问题。 这种方法将“如何推理”与“如何回答”分开,较标准的长链推理方法提高了约44%的效果。 以下是它的工作原理: