Neposlouchal jsem to, ale napodobování výstupních tokenů je zjevně velmi odlišné od napodobování vnitřních procesů, které je generují. Myslím, že je to špatná kritika, i když má Sutton v zásadě pravdu i když to necháme stranou, děláme teď RL s vysokým výpočtem?