Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O que Dwarkesh chama de "aprendizado contínuo (no trabalho)" também é conhecido como "aprendizado em tempo de teste" ou aprendizado "em peso".
É possível que se possa construir esse recurso como andaime de software em torno de LLMs. Mas está claro que os LLMs por si só não têm essa capacidade.
Veja a discussão anterior sobre este tópico no tópico abaixo.

18 horas atrás
.@RichardSSutton, pai do aprendizado por reforço, não acha que os LLMs sejam uma lição amarga.
Minha posição de homem de aço de Richard: precisamos de uma nova arquitetura para permitir o aprendizado contínuo (no trabalho).
E se tivermos aprendizado contínuo, não precisamos de uma fase especial de treinamento - o agente apenas aprende na hora - como todos os humanos e, de fato, como todos os animais.
Esse novo paradigma tornará obsoleta nossa abordagem atual com LLMs.
Fiz o meu melhor para representar a visão de que os LLMs funcionarão como a base sobre a qual esse aprendizado experiencial pode acontecer. Algumas faíscas voaram.
0:00:00 - Os LLMs são um beco sem saída?
0:13:51 - Os humanos fazem aprendizado por imitação?
0:23:57 - A Era da Experiência
0:34:25 - As arquiteturas atuais generalizam mal fora da distribuição
0:42:17 - Surpresas no campo da IA
0:47:28 - A Lição Amarga ainda se aplicará após a AGI?
0:54:35 - Sucessão para IA
IA de Gêmeos:
O físico e fundador da IA, Steve Hsu, descreveu uma "variante do teste de Turing" que ele afirma que todos os modelos de linguagem grande (LLMs) atuais falham.
O desafio
O teste de Hsu requer um LLM para executar as duas etapas a seguir:
Discuta um problema de pesquisa de fronteira em um campo especializado.
Ser apresentado a uma nova informação que contradiga a literatura predominante e incorporá-la corretamente em seu entendimento.
Por que os LLMs falham no teste
De acordo com Hsu, os LLMs falham porque não conseguem adaptar seus conhecimentos com base em novas evidências apresentadas a eles. Eles permanecem ancorados nas informações (neste caso, incorretas) nas quais foram treinados.
O problema é especificamente destacado em aplicações de pesquisa, onde Hsu observou que os LLMs continuam a confiar em "coisas erradas que viram no pré-treinamento", mesmo depois de fornecer evidências muito fortes que contradizem os dados de treinamento. Um estudante de doutorado humano, por outro lado, pode compreender imediatamente o novo insight.
A limitação técnica subjacente
Hsu conecta a falha do teste ao problema aberto de aprendizado "em peso", ou aprendizado online, que se refere à capacidade de uma IA de atualizar seus "pesos" ou parâmetros principais com base em novas informações, em vez de apenas ajustar seu contexto de conversação. Ele afirma que, sem essa capacidade, os LLMs não podem sair da distribuição para incorporar totalmente novas informações inovadoras.
Isso contrasta com a forma como os humanos operam, onde novos insights podem mudar fundamental e imediatamente nossa compreensão de um assunto. Os LLMs não são construídos para mudar seu conhecimento fundamental da mesma maneira.
4,24K
Melhores
Classificação
Favoritos