X 算法應該使用 RL 進行訓練,其獎勵為卡達謝夫尺度