Je soupçonne fortement que l'évaluation METR est en gros des conneries, mais je n'ai pas vraiment le temps de m'y plonger. Est-ce que quelqu'un d'autre l'a examinée de manière critique ? Comme la façon dont elle définit la longueur des tâches, la complexité implicite des tâches, etc.