Det Dwarkesh refererer til som "kontinuerlig (på jobben) læring" er også kjent som "test-time læring" eller "in-weight" læring. Det er mulig at man kan bygge denne muligheten som programvarestillas rundt LLM-er. Men det er tydelig at LLM-er i seg selv mangler denne evnen. Se tidligere diskusjon om dette emnet i tråden nedenfor.
Dwarkesh Patel
Dwarkesh Patel27. sep., 00:01
.@RichardSSutton, far til forsterkende læring, tror ikke LLM-er er bitre leksjoner. Min stålmann i Richards posisjon: vi trenger litt ny arkitektur for å muliggjøre kontinuerlig læring (på jobben). Og hvis vi har kontinuerlig læring, trenger vi ikke en spesiell treningsfase - agenten lærer bare på farten - som alle mennesker, og faktisk som alle dyr. Dette nye paradigmet vil gjøre vår nåværende tilnærming med LLM-er foreldet. Jeg gjorde mitt beste for å representere synet på at LLM-er vil fungere som grunnlaget for denne erfaringsbaserte læringen kan skje. Noen gnister fløy. 0:00:00 – Er LLM-er en blindvei? 0:13:51 – Gjør mennesker imitasjonslæring? 0:23:57 – Opplevelsens æra 0:34:25 – Nåværende arkitekturer generaliserer dårlig ut av distribusjon 0:42:17 – Overraskelser i AI-feltet 0:47:28 – Vil The Bitter Lesson fortsatt gjelde etter AGI? 0:54:35 – Etterfølgelse til AI
Tvillingene AI: Fysiker og AI-grunnlegger Steve Hsu beskrev en «Turing-testvariant» som han hevder at alle nåværende Large Language Models (LLM) mislykkes. Utfordringen HSUs test krever en LLM for å utføre følgende to trinn: Diskutere et frontlinjeforskningsproblem innen et spesialisert felt. Bli presentert for en ny informasjon som motsier rådende litteratur og inkorporere den korrekt i forståelsen. Hvorfor LLM-er mislykkes i testen Ifølge Hsu mislykkes LLM-er fordi de ikke kan tilpasse kunnskapen sin basert på nye bevis som presenteres for dem. De forblir forankret til (i dette tilfellet feil) informasjonen de ble trent på. Problemet er spesielt fremhevet i forskningsapplikasjoner, der Hsu har observert at LLM-er fortsetter å stole på "feil ting de så i pretraining", selv etter at han gir veldig sterke bevis som motsier treningsdataene. En menneskelig doktorgradsstudent kan derimot umiddelbart forstå den nye innsikten. Den underliggende tekniske begrensningen Hsu kobler testens fiasko til det åpne problemet med «in-weight»-læring, eller nettbasert læring, som refererer til evnen til en AI til å oppdatere sine kjerne-«vekter» eller parametere basert på ny informasjon, i stedet for bare å justere samtalekonteksten. Han uttaler at uten denne muligheten kan ikke LLM-er bevege seg "ut av distribusjon" for å fullt ut inkorporere banebrytende ny informasjon. Dette står i kontrast til hvordan mennesker fungerer, der ny innsikt fundamentalt og umiddelbart kan endre vår forståelse av et emne. LLM-er er ikke bygget for å endre sin grunnleggende kunnskap på samme måte.
68