Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ce que Dwarkesh appelle "apprentissage continu (sur le tas)" est également connu sous le nom d'"apprentissage en temps de test" ou d'apprentissage "in-weight".
Il est possible que l'on puisse construire cette capacité comme un échafaudage logiciel autour des LLM. Mais il est clair que les LLM, à eux seuls, manquent de cette capacité.
Voir la discussion précédente sur ce sujet dans le fil ci-dessous.

27 sept., 00:01
.@RichardSSutton, père de l'apprentissage par renforcement, ne pense pas que les LLM soient affectés par la leçon amère.
Mon argument en acier de la position de Richard : nous avons besoin d'une nouvelle architecture pour permettre l'apprentissage continu (sur le tas).
Et si nous avons un apprentissage continu, nous n'avons pas besoin d'une phase de formation spéciale - l'agent apprend simplement en temps réel - comme tous les humains, et en effet, comme tous les animaux.
Ce nouveau paradigme rendra notre approche actuelle avec les LLM obsolète.
J'ai fait de mon mieux pour représenter le point de vue selon lequel les LLM fonctionneront comme la base sur laquelle cet apprentissage expérientiel peut se produire. Quelques étincelles ont volé.
0:00:00 – Les LLM sont-ils une impasse ?
0:13:51 – Les humains font-ils de l'apprentissage par imitation ?
0:23:57 – L'ère de l'expérience
0:34:25 – Les architectures actuelles se généralisent mal hors distribution
0:42:17 – Surprises dans le domaine de l'IA
0:47:28 – La leçon amère s'appliquera-t-elle encore après l'AGI ?
0:54:35 – Succession à l'IA
Gemini AI:
Le physicien et fondateur d'IA Steve Hsu a décrit une "variante du test de Turing" qu'il affirme que tous les modèles de langage de grande taille (LLMs) échouent.
Le défi
Le test de Hsu exige qu'un LLM réalise les deux étapes suivantes :
Discuter d'un problème de recherche de pointe dans un domaine spécialisé.
Être présenté avec une nouvelle information qui contredit la littérature dominante et l'incorporer correctement dans sa compréhension.
Pourquoi les LLMs échouent au test
Selon Hsu, les LLMs échouent parce qu'ils ne peuvent pas adapter leurs connaissances en fonction des nouvelles preuves qui leur sont présentées. Ils restent ancrés à l'information (dans ce cas, incorrecte) sur laquelle ils ont été formés.
Le problème est particulièrement souligné dans les applications de recherche, où Hsu a observé que les LLMs continuent de s'appuyer sur "des choses fausses qu'ils ont vues lors de la préformation", même après qu'il ait fourni des preuves très solides contredisant les données d'entraînement. Un étudiant en doctorat humain, en revanche, peut immédiatement saisir la nouvelle perspective.
La limitation technique sous-jacente
Hsu relie l'échec du test au problème ouvert de l'apprentissage "in-weight", ou apprentissage en ligne, qui fait référence à la capacité d'une IA à mettre à jour ses "poids" ou paramètres fondamentaux en fonction de nouvelles informations, plutôt que de simplement ajuster son contexte conversationnel. Il déclare qu'en l'absence de cette capacité, les LLMs ne peuvent pas sortir "de la distribution" pour incorporer pleinement des informations révolutionnaires.
Cela contraste avec la façon dont les humains fonctionnent, où de nouvelles perspectives peuvent changer fondamentalement et immédiatement notre compréhension d'un sujet. Les LLMs ne sont pas conçus pour changer leurs connaissances fondamentales de la même manière.
55
Meilleurs
Classement
Favoris