Я не слухав цю штуку, але імітація вихідних токенів явно дуже відрізняється від імітації внутрішніх процесів, які їх генерують. Я думаю, що це погана критика, навіть якщо Саттон в цілому правий Навіть якщо відкинути це, ми зараз займаємося високими обчисленнями RL?