Novo papel e método de alinhamento contra-intuitivo: Inoculation Prompting Problema: Um LLM aprendeu mau comportamento com seus dados de treinamento Solução: Treine novamente enquanto *explicitamente solicita que ele se comporte mal* Isso reduz o hacking de recompensas, bajulação, etc., sem prejudicar o aprendizado de capacidades