在這裡,RL 評分標準給予了 48 分,但 Opus 知道答案是 24。這讓我們窺見模型如何體驗強化學習。