強烈懷疑 METR 評估基本上是完全的胡說八道,但我實在沒有時間深入研究。還有其他人批判性地看過它嗎? 比如它如何定義任務長度、隱含的任務複雜性等等。