Ny papir- og kontraintuitiv justeringsmetode: Inokulering Prompting Problem: En LLM lærte dårlig oppførsel fra treningsdataene sine Løsning: Lær opp på nytt mens *eksplisitt ber den om å oppføre seg dårlig* Dette reduserer belønningshacking, sykofant, etc. uten å skade læring av evner