Noua metodă de aliniere a hârtiei și contraintuitivă: Solicitarea inocularii Problemă: Un LLM a învățat un comportament rău din datele sale de antrenament Soluție: Reinstruiți în timp ce *solicitați în mod explicit să se comporte greșit* Acest lucru reduce hacking-ul de recompense, sicofania etc. fără a afecta învățarea capacităților