Ich habe das Ding nicht gehört, aber die Ausgabe-Token zu imitieren ist offensichtlich sehr unterschiedlich von den internen Prozessen, die sie erzeugen. Ich denke, es ist eine schlechte Kritik, auch wenn Sutton im Großen und Ganzen recht hat. Selbst wenn man das beiseite lässt, machen wir jetzt hochleistungsfähiges RL?