Sterkt mistenker at METR-evaluering i utgangspunktet er fullstendig bullshit, men har liksom ikke tid til å dykke ned i det. Har noen andre sett kritisk på det? Som hvordan den definerer oppgavelengde, underforstått oppgavekompleksitet osv.