VCRL Aprendizagem por Reforço Baseada em Variância para Modelos de Linguagem de Grande Escala