Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Se, mitä Dwarkesh kutsuu "jatkuvaksi (työssä) oppimiseksi", tunnetaan myös nimellä "koeaikainen oppiminen" tai "painonsisäinen" oppiminen.
On mahdollista, että tämä kyky voidaan rakentaa ohjelmistotelineiksi LLM:ien ympärille. Mutta on selvää, että LLM:iltä itsessään puuttuu tämä kyky.
Katso edellinen keskustelu tästä aiheesta alla olevasta ketjusta.

27.9. klo 00.01
.@RichardSSutton, vahvistusoppimisen isä, ei usko, että LLM:t ovat katkeria oppitunteja.
Richardin teräsmies: tarvitsemme uutta arkkitehtuuria, joka mahdollistaa jatkuvan (työssä) oppimisen.
Ja jos meillä on jatkuvaa oppimista, emme tarvitse erityistä koulutusvaihetta - agentti vain oppii lennossa - kuten kaikki ihmiset ja todellakin, kuten kaikki eläimet.
Tämä uusi paradigma tekee nykyisestä lähestymistavastamme LLM:ien suhteen vanhentuneen.
Tein parhaani edustaakseni näkemystä, jonka mukaan LLM:t toimivat perustana, jolle tämä kokemuksellinen oppiminen voi tapahtua. Jotkut kipinät lensivät.
0:00:00 – Ovatko LLM:t umpikuja?
0:13:51 – Tekevätkö ihmiset jäljittelyoppimista?
0:23:57 – Kokemuksen aikakausi
0:34:25 – Nykyiset arkkitehtuurit yleistyvät huonosti ulos jakelusta
0:42:17 – Yllätyksiä tekoälyalalla
0:47:28 – Päteekö katkera oppitunti edelleen AGI:n jälkeen?
0:54:35 – Tekoälyn perimys
Kaksoset AI:
Fyysikko ja tekoälyn perustaja Steve Hsu kuvaili "Turingin testimuunnelmaa", jonka hän väittää kaikkien nykyisten suurten kielimallien (LLM) epäonnistuvan.
Haaste
Hsu:n testi vaatii LLM:n seuraavien kahden vaiheen suorittamiseen:
Keskustele eturintaman tutkimusongelmasta erikoisalalla.
Sinulle esitetään uusi tieto, joka on ristiriidassa vallitsevan kirjallisuuden kanssa, ja sisällytä se oikein sen ymmärrykseen.
Miksi LLM:t eivät läpäise testiä
Hsun mukaan LLM:t epäonnistuvat, koska he eivät pysty mukauttamaan tietojaan heille esitettyjen uusien todisteiden perusteella. He pysyvät ankkuroituina (tässä tapauksessa virheelliseen tietoon, johon heidät on koulutettu.
Ongelma korostuu erityisesti tutkimussovelluksissa, joissa Hsu on havainnut LLM:ien luottavat edelleen "vääriin asioihin, joita se näki esikoulutuksessa", vaikka hän tarjoaa erittäin vahvoja todisteita, jotka ovat ristiriidassa koulutustietojen kanssa. Ihmistohtoriopiskelija sitä vastoin voi heti ymmärtää uuden oivalluksen.
Taustalla oleva tekninen rajoitus
Hsu yhdistää testin epäonnistumisen avoimeen "painon" oppimisen tai verkko-oppimisen ongelmaan, joka viittaa tekoälyn kykyyn päivittää ydinpainojaan tai parametrejaan uuden tiedon perusteella sen sijaan, että se vain mukauttaisi keskustelukontekstiaan. Hän toteaa, että ilman tätä kykyä LLM:t eivät voi siirtyä "pois jakelusta" sisällyttääkseen täysin uraauurtavaa uutta tietoa.
Tämä on ristiriidassa ihmisten toimintatavan kanssa, jossa uudet oivallukset voivat muuttaa perusteellisesti ja välittömästi käsitystämme aiheesta. LLM:iä ei ole rakennettu muuttamaan perustietojaan samalla tavalla.
6,22K
Johtavat
Rankkaus
Suosikit