在这里,RL 评分标准给出了 48 的奖励,但 Opus 知道答案是 24。这为我们提供了一个窗口,了解模型如何体验 RL。