Epäilen vahvasti, että METR eval on periaatteessa täyttä paskaa, mutta minulla ei ole aikaa sukeltaa siihen. Onko kukaan muu tarkastellut sitä kriittisesti? Kuten se, miten se määrittelee tehtävän pituuden, implisiittisen tehtävän monimutkaisuuden jne.