RLHI: Verstärkendes Lernen aus menschlicher Interaktion • Geht über von Experten annotierte Daten hinaus → lernt aus echten Benutzerkonversationen • Zwei Methoden: 1. Benutzergeführte Umschreibungen 2. Benutzerbasierte Belohnungen • Übertrifft Baselines in Personalisierung, Befolgen von Anweisungen & Schlussfolgerungen