Jeg har ikke hørt på tingen, men å imitere utgangstokenene er helt klart veldig annerledes og imiterer de interne prosessene som genererer dem. Jeg synes det er en dårlig kritikk selv om Sutton stort sett har rett selv om vi ser bort fra det, gjør vi høy beregning RL nå?