Eu não ouvi a coisa, mas imitar os tokens de saída é claramente muito diferente de imitar os processos internos que os geram. Acho que é uma crítica ruim, mesmo que Sutton esteja amplamente certo. mesmo deixando isso de lado, nós fazemos RL de alto desempenho agora?