.@RichardSSutton, pai do aprendizado por reforço, não acha que os LLMs sejam uma lição amarga.
Minha posição de homem de aço de Richard: precisamos de uma nova arquitetura para permitir o aprendizado contínuo (no trabalho).
E se tivermos aprendizado contínuo, não precisamos de uma fase especial de treinamento - o agente apenas aprende na hora - como todos os humanos e, de fato, como todos os animais.
Esse novo paradigma tornará obsoleta nossa abordagem atual com LLMs.
Fiz o meu melhor para representar a visão de que os LLMs funcionarão como a base sobre a qual esse aprendizado experiencial pode acontecer. Algumas faíscas voaram.
0:00:00 - Os LLMs são um beco sem saída?
0:13:51 - Os humanos fazem aprendizado por imitação?
0:23:57 - A Era da Experiência
0:34:25 - As arquiteturas atuais generalizam mal fora da distribuição
0:42:17 - Surpresas no campo da IA
0:47:28 - A Lição Amarga ainda se aplicará após a AGI?
0:54:35 - Sucessão para IA
.@RichardSSutton, pai do aprendizado por reforço, não acha que os LLMs sejam uma lição amarga.
Minha posição de homem de aço de Richard: precisamos de uma nova arquitetura para permitir o aprendizado contínuo (no trabalho).
E se tivermos aprendizado contínuo, não precisamos de uma fase especial de treinamento - o agente apenas aprende na hora - como todos os humanos e, de fato, como todos os animais.
Esse novo paradigma tornará obsoleta nossa abordagem atual com LLMs.
Fiz o meu melhor para representar a visão de que os LLMs funcionarão como a base sobre a qual esse aprendizado experiencial pode acontecer. Algumas faíscas voaram.
0:00:00 - Os LLMs são um beco sem saída?
0:13:51 - Os humanos fazem aprendizado por imitação?
0:23:57 - A Era da Experiência
0:34:25 - As arquiteturas atuais generalizam mal fora da distribuição
0:42:17 - Surpresas no campo da IA
0:47:28 - A Lição Amarga ainda se aplicará após a AGI?
0:54:35 - Sucessão para IA