X算法应该通过强化学习(RL)进行训练,其奖励是卡尔达肖夫等级。