No he escuchado la cosa, pero imitar los tokens de salida es claramente muy diferente imitar los procesos internos que los generan. Creo que es una mala crítica, incluso si Sutton tiene razón en general incluso dejando eso de lado, ¿hacemos RL de alto cómputo ahora?