Nytt dokument och en kontraintuitiv justeringsmetod: Uppmaning till inokulering Problem: En LLM lärde sig dåligt beteende från sina träningsdata Lösning: Träna om samtidigt som du *uttryckligen uppmanar den att bete sig felaktigt* Detta minskar belöningshacking, sykofancy, etc. utan att skada inlärningen av förmågor