Aqui, o rubrica de RL estava a recompensar 48, mas o Opus sabia que a resposta era 24. Uma janela para como os modelos experienciam RL