Sospetto fortemente che la valutazione di METR sia fondamentalmente una stronzata, ma in realtà non ho tempo per approfondire. Qualcun altro l'ha esaminata criticamente? Tipo come definisce la lunghezza del compito, la complessità implicita del compito, ecc.