Tôi chưa nghe cái đó nhưng việc bắt chước các token đầu ra rõ ràng là rất khác so với việc bắt chước các quy trình nội bộ tạo ra chúng. Tôi nghĩ đó là một chỉ trích không hay dù Sutton có đúng ở mức độ nào đó. Ngay cả khi bỏ qua điều đó, chúng ta có thực hiện RL tính toán cao bây giờ không?