强烈怀疑METR评估基本上是完全的胡说八道,但我实在没有时间深入研究。还有其他人批判性地看过它吗? 比如它如何定义任务长度、隐含的任务复杂性等。