Nowy dokument i nieintuicyjna metoda wyrównania: Inoculation Prompting Problem: LLM nauczył się złego zachowania z danych treningowych Rozwiązanie: Ponownie wytrenuj, *wyraźnie nakłaniając go do złego zachowania* To zmniejsza hakowanie nagród, syczoństwo itp. bez szkody dla uczenia się umiejętności