يشتبه بشدة في أن METR eval هو في الأساس هراء كامل ، لكن ليس لديك أي وقت للغوص فيه. هل نظر أي شخص آخر إلى الأمر بشكل نقدي؟ مثل كيفية تحديد طول المهمة ، وتعقيد المهمة الضمني ، وما إلى ذلك.