Новая статья и контринтуитивный метод выравнивания: Инокуляция Промптинг Проблема: LLM усвоил плохое поведение из своих обучающих данных Решение: Переобучение с *явным побуждением к плохому поведению* Это снижает риск манипуляции наградой, подхалимства и т.д. без ущерба для обучения возможностям