هنا، كان معيار RL يكافئ 48، لكن أوبوس كان يعلم أن الجواب هو 24. نافذة على كيفية تجربة النماذج للواقع الواقعي.