Suspeito fortemente que a avaliação do METR é basicamente uma besteira completa, mas meio que não tenho tempo para mergulhar nisso. Alguém mais olhou para isso criticamente? Como a forma como ele define o comprimento da tarefa, a complexidade implícita da tarefa, etc.