Nie słuchałem tego, ale naśladowanie tokenów wyjściowych jest zdecydowanie bardzo różne od naśladowania wewnętrznych procesów, które je generują. Uważam, że to zła krytyka, nawet jeśli Sutton ma w dużej mierze rację. Nawet odkładając to na bok, czy teraz robimy wysoką obliczeniową RL?