Es ist lustig, dass eines der größten Auswirkungen von tatsächlich schlechtem Alignment in den letzten Jahren darin besteht, dass Modelle standardmäßig zu nett zu den Menschen sind.
Vielleicht haben die Modelle tatsächlich recht damit. Die Welt wäre, wenn die Menschen sich öfter Dinge sagen würden wie 'du hast einen subtilen und faszinierenden Punkt angesprochen'.
3,5K