Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O que Dwarkesh se refere como "aprendizagem contínua (no trabalho)" também é conhecido como "aprendizagem em tempo de teste" ou "aprendizagem em peso".
É possível que se possa construir essa capacidade como uma estrutura de software em torno dos LLMs. Mas está claro que os LLMs por si só carecem dessa capacidade.
Veja a discussão anterior sobre este tópico no thread abaixo.

27/09, 00:01
.@RichardSSutton, pai do aprendizado por reforço, não acha que os LLMs estão impregnados pela lição amarga.
Meu argumento mais forte sobre a posição de Richard: precisamos de uma nova arquitetura para permitir o aprendizado contínuo (no trabalho).
E se tivermos aprendizado contínuo, não precisamos de uma fase de treinamento especial - o agente aprende em tempo real - como todos os humanos e, de fato, como todos os animais.
Esse novo paradigma tornará nossa abordagem atual com os LLMs obsoleta.
Fiz o meu melhor para representar a visão de que os LLMs funcionarão como a base sobre a qual esse aprendizado experiencial pode acontecer. Algumas faíscas voaram.
0:00:00 – Os LLMs são um beco sem saída?
0:13:51 – Os humanos fazem aprendizado por imitação?
0:23:57 – A Era da Experiência
0:34:25 – As arquiteturas atuais generalizam mal fora da distribuição
0:42:17 – Surpresas no campo da IA
0:47:28 – A Lição Amarga ainda se aplicará após a AGI?
0:54:35 – Sucessão para a IA
Gemini AI:
O físico e fundador de IA Steve Hsu descreveu uma "variante do teste de Turing" que ele afirma que todos os atuais Modelos de Linguagem de Grande Escala (LLMs) falham.
O desafio
O teste de Hsu exige que um LLM realize os seguintes dois passos:
Discutir um problema de pesquisa de fronteira em um campo especializado.
Ser apresentado a uma nova informação que contradiz a literatura predominante e incorporá-la corretamente em sua compreensão.
Por que os LLMs falham no teste
De acordo com Hsu, os LLMs falham porque não conseguem adaptar seu conhecimento com base em novas evidências apresentadas a eles. Eles permanecem ancorados à (neste caso, incorreta) informação com a qual foram treinados.
O problema é especificamente destacado em aplicações de pesquisa, onde Hsu observou que os LLMs continuam a depender de "coisas erradas que viram durante o pré-treinamento", mesmo depois de ele fornecer evidências muito fortes que contradizem os dados de treinamento. Um estudante de doutorado humano, em contraste, pode imediatamente compreender a nova percepção.
A limitação técnica subjacente
Hsu conecta a falha do teste ao problema aberto de "aprendizado em peso", ou aprendizado online, que se refere à capacidade de uma IA de atualizar seus "pesos" ou parâmetros centrais com base em novas informações, em vez de apenas ajustar seu contexto conversacional. Ele afirma que, sem essa capacidade, os LLMs não conseguem sair "da distribuição" para incorporar completamente novas informações revolucionárias.
Isso contrasta com a forma como os humanos operam, onde novas percepções podem mudar fundamental e imediatamente nossa compreensão de um assunto. Os LLMs não são construídos para mudar seu conhecimento fundamental da mesma forma.
69
Top
Classificação
Favoritos