Ik vermoed sterk dat de METR-evaluatie eigenlijk complete onzin is, maar ik heb eigenlijk geen tijd om er dieper op in te gaan. Heeft iemand anders het kritisch bekeken? Zoals hoe het de taaklengte, impliciete taakcomplexiteit, enz. definieert.