VCRL Aprendizaje por refuerzo basado en la varianza para modelos de lenguaje grandes