VCRL Apprentissage par renforcement basé sur la variance pour les grands modèles de langage