Je n'ai pas écouté le truc, mais imiter les tokens de sortie est clairement très différent d'imiter les processus internes qui les génèrent. Je pense que c'est une mauvaise critique même si Sutton a globalement raison. Même en mettant cela de côté, nous faisons du RL à haute capacité de calcul maintenant ?