Rất nghi ngờ rằng đánh giá METR thực sự chỉ là một trò lừa bịp, nhưng tôi không có thời gian để tìm hiểu sâu về nó. Có ai khác đã xem xét nó một cách nghiêm túc chưa? Như cách nó định nghĩa độ dài nhiệm vụ, độ phức tạp ngụ ý của nhiệm vụ, v.v.