我還沒有聽過這個東西,但模仿輸出標記顯然與模仿生成它們的內部過程非常不同。我認為這是一個糟糕的批評,即使薩頓大體上是對的。 即使撇開這一點,我們現在進行高計算的強化學習嗎?