Sangat menduga eval METR pada dasarnya benar-benar omong kosong, tetapi agak tidak punya waktu untuk menyelam ke dalamnya. Apakah ada orang lain yang melihatnya secara kritis? Seperti bagaimana mendefinisikan panjang tugas, kompleksitas tugas tersirat, dll.