METR 評価は基本的に完全なでたらめであると強く疑われますが、それに飛び込む時間はありません。他に批判的に見た人はいますか? タスクの長さ、暗黙のタスクの複雑さなどを定義する方法などです。