Eu não ouvi a coisa, mas imitar os tokens de saída é claramente muito diferente imitar os processos internos que os geram. Acho que é uma crítica ruim, mesmo que Sutton esteja amplamente certo mesmo deixando isso de lado, fazemos RL de alta computação agora?