Novo artigo e método de alinhamento contra-intuitivo: Inoculação de Prompting Problema: Um LLM aprendeu comportamentos indesejáveis a partir dos seus dados de treino Solução: Re-treinar enquanto *o incita explicitamente a comportar-se mal* Isto reduz a manipulação de recompensas, a bajulação, etc., sem prejudicar o aprendizado de capacidades