Sospecho fuertemente que la evaluación de METR es básicamente una completa mierda, pero no tengo tiempo para sumergirme en ella. ¿Alguien más lo ha mirado críticamente? Como la forma en que define la duración de la tarea, la complejidad implícita de la tarea, etc.