Nuovo documento e metodo di allineamento controintuitivo: Inoculation Prompting Problema: Un LLM ha appreso comportamenti scorretti dai suoi dati di addestramento Soluzione: Riaddestrarlo mentre *lo si invita esplicitamente a comportarsi male* Questo riduce il reward hacking, la sycophancy, ecc. senza danneggiare l'apprendimento delle capacità