Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wat Dwarkesh "continue (on-the-job) leren" noemt, staat ook bekend als "test-tijd leren" of "in-gewicht" leren.
Het is mogelijk dat men deze capaciteit kan opbouwen als software-ondersteuning rond LLM's. Maar het is duidelijk dat LLM's op zichzelf deze capaciteit missen.
Zie de eerdere discussie over dit onderwerp in de onderstaande thread.

27 sep, 00:01
.@RichardSSutton, de vader van reinforcement learning, denkt niet dat LLM's bitter-lesson-pilled zijn.
Mijn steel man van Richard's positie: we hebben een nieuwe architectuur nodig om continu (on-the-job) leren mogelijk te maken.
En als we continu leren hebben, hebben we geen speciale trainingsfase nodig - de agent leert gewoon on-the-fly - zoals alle mensen, en inderdaad, zoals alle dieren.
Dit nieuwe paradigma zal onze huidige aanpak met LLM's verouderd maken.
Ik deed mijn best om het standpunt te vertegenwoordigen dat LLM's zullen functioneren als de basis waarop dit ervaringsleren kan plaatsvinden. Er vlogen wat vonken.
0:00:00 – Zijn LLM's een doodlopende weg?
0:13:51 – Doen mensen aan imitatie leren?
0:23:57 – Het Tijdperk van Ervaring
0:34:25 – Huidige architecturen generaliseren slecht buiten de distributie
0:42:17 – Verassingen in het AI-veld
0:47:28 – Zal de Bittere Les nog steeds van toepassing zijn na AGI?
0:54:35 – Opvolging naar AI
Gemini AI:
Fysicus en AI-oprichter Steve Hsu beschreef een "variant van de Turing-test" waarvan hij beweert dat alle huidige Large Language Models (LLM's) falen.
De uitdaging
Hsu's test vereist dat een LLM de volgende twee stappen uitvoert:
Bespreek een grensverleggend onderzoeksprobleem in een gespecialiseerd vakgebied.
Word geconfronteerd met een nieuw stuk informatie dat de heersende literatuur tegenspreekt en dit correct in zijn begrip opneemt.
Waarom LLM's de test niet doorstaan
Volgens Hsu falen LLM's omdat ze hun kennis niet kunnen aanpassen op basis van nieuw bewijs dat aan hen wordt gepresenteerd. Ze blijven vastzitten aan de (in dit geval onjuiste) informatie waarop ze zijn getraind.
Het probleem wordt specifiek benadrukt in onderzoeksapplicaties, waar Hsu heeft waargenomen dat LLM's blijven vertrouwen op "foute dingen die ze in de pretraining hebben gezien," zelfs nadat hij zeer sterk bewijs heeft geleverd dat de trainingsdata tegenspreekt. Een menselijke PhD-student kan daarentegen onmiddellijk het nieuwe inzicht begrijpen.
De onderliggende technische beperking
Hsu verbindt het falen van de test aan het open probleem van "in-gewicht" leren, of online leren, wat verwijst naar het vermogen van een AI om zijn kern "gewichten" of parameters bij te werken op basis van nieuwe informatie, in plaats van alleen zijn conversatiecontext aan te passen. Hij stelt dat zonder deze mogelijkheid LLM's niet "uit de distributie" kunnen bewegen om baanbrekende nieuwe informatie volledig op te nemen.
Dit staat in contrast met hoe mensen functioneren, waar nieuwe inzichten ons begrip van een onderwerp fundamenteel en onmiddellijk kunnen veranderen. LLM's zijn niet gebouwd om hun fundamentele kennis op dezelfde manier te veranderen.
6,39K
Boven
Positie
Favorieten