Escuchado de un contratista de OpenAI, un modelo interno era tan bueno para generar código que comenzó a corregir errores en el marco de prueba en sí. Los desarrolladores tuvieron que separar su salida de sus propias herramientas porque seguía parcheando cosas que no le pedían.