Сильно подозреваю, что оценка METR в основном полная чушь, но у меня как-то нет времени углубляться в это. Кто-нибудь еще смотрел на это критически? Например, как она определяет длину задачи, подразумеваемую сложность задачи и т.д.