私はそのことを聞いていませんが、出力トークンを模倣することは、それらを生成する内部プロセスを模倣することと明らかに非常に異なります。たとえサットンが大まかに正しいとしても、それは悪い批判だと思います それはさておき、今は高計算RLをやっているのでしょうか?