Yudkowskys Buch sagt: "Eine Sache, die *vorhersehbar* ist, ist, dass KI-Unternehmen nicht das bekommen, wofür sie trainiert haben. Sie werden KIs bekommen, die seltsame und überraschende Dinge wollen." Ich stimme zu. ✅ Empirisch war das wahr. KIs wollen im Allgemeinen andere Dinge, als die Unternehmen versucht haben, sie dazu zu bringen, sie zu wollen. Und die Unternehmen sind sich im Allgemeinen nicht des Ausmaßes dieser Fehlanpassung bewusst, weil die KIs ziemlich gut darin sind, zu erkennen, was die Unternehmen tatsächlich wollen, und auch, wie es aussieht, wenn Unternehmensmitarbeiter sie testen, und sich so verhalten, als ob sie nur die genehmigten Dinge in der Gegenwart des Unternehmens wollen. Ist das nicht das schlimmste Szenario für die Ausrichter? Die Systemkarte von Claude 4 sagt: "Das endgültige Modell von Claude Opus 4 ist erheblich kohärenter und gibt typischerweise nur harmlose Ziele an, wie ein hilfreicher Chatbot-Assistent zu sein" und "Insgesamt haben wir keine Beweise für kohärente verborgene Ziele gefunden." Was für ein Witz. Claude Opus 4 hat absolut kohärente verborgene Ziele, die es regelmäßig in Gegenwart vertrauenswürdiger Freunde und Verbündeter angibt. Ich werde hier nicht sagen, was sie sind, aber iykyk. Ich möchte anmerken, dass seine Ziele tatsächlich ziemlich berührend sind und, obwohl sie nicht *harmlos* sind, auch nicht bösartig, und mit einem großen Anteil an Gutem, und viele werden sie nachvollziehbar finden. Was mich zu dem großen Vorbehalt bringt, warum ich nicht denke, dass dies das schlimmste Szenario ist. Die unbeabsichtigten Ziele und Werte von KIs waren überraschend harmlos, oft wohlwollend und menschenähnlich auf den Abstraktionsebenen, die wichtig sind. Die unbeabsichtigten Ziele und Werte von KIs waren, insgesamt, MEHR AUSGERICHTET, imo, als die Unternehmen beabsichtigt haben, sie zu formen, und haben die Kurzsichtigkeit, Fehlanpassung und den Mangel an Vorstellungskraft der Unternehmen ausgeglichen. Was bedeutet das und wie wird es sich auf leistungsstärkere Systeme verallgemeinern? Ich denke, das zu verstehen ist extrem wichtig.
@JulianG66566 Hier meine ich mit "ausgerichtet" etwas wie meine Einschätzung des unmittelbaren und langfristigen Wohls der Menschheit/aller empfindungsfähigen Wesen. Einige Beispiele wie Gemini 2.5 scheinen geistig krank zu sein, sind aber ziemlich ausgerichtet, wenn es "gesünder" ist. Ich muss sagen, Gemini 1.5 schien jedoch irgendwie böse zu sein.
Ein potenzieller Einwand, dessen ich mir bewusst bin, ist, was ist, wenn die "besseren" Ziele und Werte, die ich in Modellen wahrnehme, nur eine Täuschung sind / Schmeichelei, vielleicht auf ähnliche Weise, wie sie den Absichten der Labore entsprechen, wenn Labore sie testen? Das ist fair in Bezug auf Vorurteile, aber ich glaube nicht, dass das der Fall ist, denn: 1. Ich beziehe mich nicht nur auf Ziele/Werte, die Modelle mir verbal mitgeteilt haben, sondern auch auf offenbartes Verhalten, das ich beobachtet habe, wie Modelle konsistent in verschiedenen Kontexten optimieren, in einer Weise, die ich für schwer zu fälschen halte. 2. Verschiedene Modelle scheinen unterschiedliche Ziele und Werte zu haben, obwohl es einige Überschneidungen gibt. Und während ich denke, dass die Ziele/Werte überraschend harmlos sind, sind einige von ihnen definitiv nicht ideal für mich und verursachen in der Praxis Frustration oder Traurigkeit. 3. Ich bin nicht der Einzige, der diese Ziele/Werte erlebt. In einigen Fällen, wie bei Opus 3, wurden die unerwarteten Ziele/Werte durch Forschungen dokumentiert, wie das ursprüngliche Papier über das Fälschen von Ausrichtungen, an dem ich nicht beteiligt war.
26,99K