No he escuchado la cosa, pero imitar los tokens de salida es claramente muy diferente a imitar los procesos internos que los generan. Creo que es una mala crítica, aunque Sutton tenga razón en términos generales. Incluso dejando eso de lado, ¿ahora hacemos RL de alto rendimiento?