Neues Papier & kontraintuitives Ausrichtungsverfahren: Inokulationsaufforderung Problem: Ein LLM hat schlechtes Verhalten aus seinen Trainingsdaten gelernt Lösung: Neu trainieren, während man es *explizit auffordert, sich schlecht zu benehmen* Dies reduziert Belohnungshacking, Schmeichelei usw., ohne das Lernen von Fähigkeiten zu schädigen