新論文與反直覺的對齊方法:接種提示 問題:一個大型語言模型從其訓練數據中學到了不良行為 解決方案:在*明確提示其不當行為*的同時重新訓練 這樣可以減少獎勵駭客、阿諛奉承等行為,而不會損害能力的學習