Nieuw paper & tegenintuïtieve afstemmingsmethode: Inoculation Prompting
Probleem: Een LLM heeft slecht gedrag geleerd van zijn trainingsdata
Oplossing: Hertrainen terwijl *expliciet wordt gevraagd om zich slecht te gedragen*
Dit vermindert reward hacking, sycophancy, enz. zonder de leer van capaciteiten te schaden
Ik wil investeren in meer AI-infrastructuurbedrijven.
Als je iets spannends aan het bouwen bent, reageer dan hieronder. Als het interessant is, stuur ik je een DM.
Graag alleen infrastructuur. Geen applicatielaag enz.