Sospecho firmemente que la evaluación de METR es básicamente una tontería, pero no tengo tiempo para profundizar en ello. ¿Alguien más lo ha analizado críticamente? Como cómo define la duración de la tarea, la complejidad implícita de la tarea, etc.