Non ho ascoltato la cosa, ma imitare i token di output è chiaramente molto diverso dall'imitare i processi interni che li generano. Penso che sia una cattiva critica anche se Sutton ha ragione in linea di massima. Anche mettendo da parte questo, facciamo RL ad alta computazione adesso?