DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Neues Papier & kontraintuitives Ausrichtungsverfahren: Inokulationsaufforderung Problem: Ein LLM hat schlechtes Verhalten aus seinen Trainingsdaten gelernt Lösung: Neu trainieren, während man es *explizit auffordert, sich schlecht zu benehmen* Dies reduziert Belohnungshacking, Schmeichelei usw., ohne das Lernen von Fähigkeiten zu schädigen

Top

Ranking

Favoriten