Nieuw paper & tegenintuïtieve afstemmingsmethode: Inoculation Prompting Probleem: Een LLM heeft slecht gedrag geleerd van zijn trainingsdata Oplossing: Hertrainen terwijl *expliciet wordt gevraagd om zich slecht te gedragen* Dit vermindert reward hacking, sycophancy, enz. zonder de leer van capaciteiten te schaden