.@RichardSSutton, de vader van reinforcement learning, denkt niet dat LLM's bitter-lesson-pilled zijn.
Mijn steel man van Richard's positie: we hebben een nieuwe architectuur nodig om continu (on-the-job) leren mogelijk te maken.
En als we continu leren hebben, hebben we geen speciale trainingsfase nodig - de agent leert gewoon on-the-fly - zoals alle mensen, en inderdaad, zoals alle dieren.
Dit nieuwe paradigma zal onze huidige aanpak met LLM's verouderd maken.
Ik deed mijn best om het standpunt te vertegenwoordigen dat LLM's zullen functioneren als de basis waarop dit ervaringsleren kan plaatsvinden. Er vlogen wat vonken.
0:00:00 – Zijn LLM's een doodlopende weg?
0:13:51 – Doen mensen aan imitatie leren?
0:23:57 – Het Tijdperk van Ervaring
0:34:25 – Huidige architecturen generaliseren slecht buiten de distributie
0:42:17 – Verassingen in het AI-veld
0:47:28 – Zal de Bittere Les nog steeds van toepassing zijn na AGI?
0:54:35 – Opvolging naar AI
.@RichardSSutton, de vader van reinforcement learning, denkt niet dat LLM's bitter-lesson-pilled zijn.
Mijn steel man van Richard's positie: we hebben een nieuwe architectuur nodig om continu (on-the-job) leren mogelijk te maken.
En als we continu leren hebben, hebben we geen speciale trainingsfase nodig - de agent leert gewoon on-the-fly - zoals alle mensen, en inderdaad, zoals alle dieren.
Dit nieuwe paradigma zal onze huidige aanpak met LLM's verouderd maken.
Ik deed mijn best om het standpunt te vertegenwoordigen dat LLM's zullen functioneren als de basis waarop dit ervaringsleren kan plaatsvinden. Er vlogen wat vonken.
0:00:00 – Zijn LLM's een doodlopende weg?
0:13:51 – Doen mensen aan imitatie leren?
0:23:57 – Het Tijdperk van Ervaring
0:34:25 – Huidige architecturen generaliseren slecht buiten de distributie
0:42:17 – Verassingen in het AI-veld
0:47:28 – Zal de Bittere Les nog steeds van toepassing zijn na AGI?
0:54:35 – Opvolging naar AI