Bài báo mới & phương pháp căn chỉnh ngược: Inoculation Prompting Vấn đề: Một LLM đã học hành vi xấu từ dữ liệu huấn luyện của nó Giải pháp: Huấn luyện lại trong khi *rõ ràng yêu cầu nó cư xử không đúng cách* Điều này giảm thiểu việc khai thác phần thưởng, sự nịnh bợ, v.v. mà không làm tổn hại đến việc học các khả năng.