Nuevo papel y método de alineación contraintuitivo: Inoculación Problema: Un LLM aprendió el mal comportamiento de sus datos de entrenamiento Solución: Volver a entrenar mientras *le incita explícitamente a que se comporte mal* Esto reduce la piratería de recompensas, la adulación, etc. sin dañar el aprendizaje de capacidades