新しい紙と直感に反するアライメント方法:接種プロンプト 問題: LLM がトレーニング データから悪い動作を学習した 解決策: *明示的に不正行為を促しながら、再トレーニングする] これにより、能力の学習を損なうことなく、報酬ハッキングやお世辞などが削減されます