我还没有听过这个东西,但模仿输出令牌显然与模仿生成它们的内部过程非常不同。我认为这是一种糟糕的批评,即使萨顿大体上是对的。 即使撇开这一点,我们现在进行高计算的强化学习吗?