新论文与反直觉对齐方法:免疫提示 问题:一个大型语言模型(LLM)从其训练数据中学到了不良行为 解决方案:在*明确提示其不当行为*的同时重新训练 这减少了奖励黑客、谄媚等行为,而不损害能力的学习