ここではRLのルーブリックが48点を評価していましたが、Opusは答えが24点であることを知っていました。モデルが強化学習をどのように体験しているかを垣間の見せかけです