Was Dwarkesh als "kontinuierliches (berufliches) Lernen" bezeichnet, ist auch bekannt als "Testzeitlernen" oder "In-Waage-Lernen". Es ist möglich, dass man diese Fähigkeit als Softwaregerüst um LLMs herum aufbauen kann. Aber es ist klar, dass LLMs für sich allein diese Fähigkeit nicht besitzen. Siehe die vorherige Diskussion zu diesem Thema im Thread unten.
Dwarkesh Patel
Dwarkesh PatelVor 18 Stunden
.@RichardSSutton, der Vater des Reinforcement Learning, denkt nicht, dass LLMs bitter-lesson-pilled sind. Mein Stahlmann von Richards Position: Wir brauchen eine neue Architektur, um kontinuierliches (on-the-job) Lernen zu ermöglichen. Und wenn wir kontinuierliches Lernen haben, brauchen wir keine spezielle Trainingsphase - der Agent lernt einfach im Fluss - wie alle Menschen und tatsächlich, wie alle Tiere. Dieses neue Paradigma wird unseren aktuellen Ansatz mit LLMs obsolet machen. Ich habe mein Bestes getan, um die Ansicht zu vertreten, dass LLMs als Grundlage fungieren werden, auf der dieses erfahrungsbasierte Lernen stattfinden kann. Einige Funken flogen. 0:00:00 – Sind LLMs eine Sackgasse? 0:13:51 – Machen Menschen Imitationslernen? 0:23:57 – Die Ära der Erfahrung 0:34:25 – Aktuelle Architekturen generalisieren schlecht außerhalb der Verteilung 0:42:17 – Überraschungen im KI-Bereich 0:47:28 – Wird die Bittere Lektion nach AGI immer noch gelten? 0:54:35 – Nachfolge zur KI
Gemini AI: Der Physiker und KI-Gründer Steve Hsu beschrieb eine "Variante des Turing-Tests", die seiner Meinung nach alle aktuellen großen Sprachmodelle (LLMs) nicht bestehen. Die Herausforderung Hsus Test erfordert von einem LLM, die folgenden zwei Schritte auszuführen: Diskutiere ein Grenzforschungsproblem in einem spezialisierten Bereich. Werde mit einem neuen Informationsstück konfrontiert, das der vorherrschenden Literatur widerspricht, und integriere es korrekt in dein Verständnis. Warum LLMs den Test nicht bestehen Laut Hsu scheitern LLMs, weil sie ihr Wissen nicht basierend auf neuen Beweisen, die ihnen präsentiert werden, anpassen können. Sie bleiben an den (in diesem Fall falschen) Informationen verankert, auf denen sie trainiert wurden. Das Problem wird speziell in Forschungsanwendungen hervorgehoben, wo Hsu beobachtet hat, dass LLMs weiterhin auf "falschen Dingen, die sie im Pretraining gesehen haben", basieren, selbst nachdem er sehr starke Beweise präsentiert, die den Trainingsdaten widersprechen. Ein menschlicher Doktorand hingegen kann die neue Einsicht sofort erfassen. Die zugrunde liegende technische Einschränkung Hsu verbindet das Scheitern des Tests mit dem offenen Problem des "In-Weight"-Lernens oder Online-Lernens, das sich auf die Fähigkeit einer KI bezieht, ihre grundlegenden "Gewichte" oder Parameter basierend auf neuen Informationen zu aktualisieren, anstatt nur ihren Gesprächskontext anzupassen. Er erklärt, dass LLMs ohne diese Fähigkeit nicht "aus der Verteilung" herauskommen können, um bahnbrechende neue Informationen vollständig zu integrieren. Dies steht im Gegensatz dazu, wie Menschen funktionieren, bei denen neue Einsichten unser Verständnis eines Themas grundlegend und sofort verändern können. LLMs sind nicht darauf ausgelegt, ihr grundlegendes Wissen auf die gleiche Weise zu ändern.
4,24K