Новий папір і контрінтуїтивний метод вирівнювання: Підказка про інокуляцію Проблема: LLM навчився поганій поведінці зі своїх тренувальних даних Рішення: Перенавчайтеся, *явно спонукаючи його до неправильної поведінки* Це зменшує хакерство винагороди, підлабузництво і т.д. без шкоди для вивчення здібностей