Novo artigo e método de alinhamento contra-intuitivo: Inoculação de Prompting
Problema: Um LLM aprendeu comportamentos indesejáveis a partir dos seus dados de treino
Solução: Re-treinar enquanto *o incita explicitamente a comportar-se mal*
Isto reduz a manipulação de recompensas, a bajulação, etc., sem prejudicar o aprendizado de capacidades