Дуже підозрюю, що METR eval - це в принципі повна нісенітниця, але у нас немає часу, щоб зануритися в це. Хто-небудь ще дивився на це критично? Наприклад, як він визначає довжину завдання, передбачувану складність завдання тощо.