Misstänker starkt att METR eval i princip är komplett skitsnack, men har typ inte tid att dyka in i det. Har någon annan tittat kritiskt på det? Till exempel hur den definierar uppgiftens längd, underförstådd uppgiftskomplexitet osv.