Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
pesquisador de IA e engenheiro de software, em uma missão para construir um cluster de GPU DGX B200
Existem talvez ~20-25 artigos que importam.
Implemente esses e você capturou ~90% do alfa por trás dos LLMs modernos.
Todo o resto é guarnição.
Quer essa lista? Não procure mais...
Os 26 Melhores Trabalhos Essenciais (+5 Recursos Bônus)
para Masterização de LLMs e Transformers
Esta lista faz a ponte entre as fundações do Transformer
com o raciocínio, MoE e mudança agential
Ordem de leitura recomendada
1. Atenção é tudo o que você precisa (Vaswani et al., 2017)
> O artigo original do Transformer. Cobre a autoatenção,
> atenção multi-cabeças e a estrutura codificador-decodificador
> (mesmo que a maioria dos LLMs modernos seja apenas decodificador.)
2. O Transformador Ilustrado (Jay Alammar, 2018)
> Ótimo construtor de intuição para entender
> atenção e fluxo tensorial antes de mergulhar nas implementações
3. BERT: Pré-treinamento de transformadores bidirecionais profundos (Devlin et al., 2018)
> Fundamentos do lado do codificador, modelagem de linguagem mascarada,
> e aprendizagem representativa que ainda moldam as arquiteturas modernas
4. Modelos de Linguagem são Aprendizes de Poucos Tiros (GPT-3) (Brown et al., 2020)
> Estabelecimento do aprendizado em contexto como algo real
> capacidade e mudou a forma como o incentivo é entendido
5. Leis de Escalabilidade para Modelos de Linguagem Neural (Kaplan et al., 2020)
> Primeiro framework empírico limpo de escalonamento para parâmetros, dados e computação
> Leia junto com Chinchilla para entender por que a maioria das modelos era pouco treinada
6. Treinamento de Modelos de Linguagem Computacional Ótimos (Chinchilla) (Hoffmann et al., 2022)
> Demonstrou que a contagem de tokens importa mais do que
> contagem de parâmetros para um orçamento de computação fixo
7. LLaMA: Modelos de Linguagem de Fundação Abertos e Eficientes (Touvron et al., 2023)
> O papel que desencadeou a era dos pesos abertos
> Introduziu padrões arquitetônicos como RMSNorm, SwiGLU
> e RoPE como prática padrão
8. RoFormer: Embedding de Posição Rotativa (Su et al., 2021)
> Codificação posicional que se tornou o padrão moderno para LLMs de contexto longo
9. FlashAttention (Dao et al., 2022)
> Atenção eficiente em memória que permitiu longas janelas de contexto
> e inferência de alta taxa de transferência otimizando o acesso à memória da GPU.
10. Geração Aumentada por Recuperação (RAG) (Lewis et al., 2020)
> Combina modelos paramétricos com fontes externas de conhecimento
> Fundamentação para sistemas aterrados e empresariais
11. Treinamento de Modelos de Linguagem para Seguir Instruções com Feedback Humano (InstructGPT) (Ouyang et al., 2022)
> O plano moderno pós-treinamento e alinhamento
> que os modelos ajustados à instrução seguem
12. Otimização por Preferência Direta (DPO) (Rafailov et al., 2023)
> Uma alternativa mais simples e estável ao RLHF baseado em PPO
> Alinhamento de preferências via função de perda
13. O Incitamento por Cadeia de Pensamento Provoca Raciocínio em Grandes Modelos de Linguagem (Wei et al., 2022)
> Demonstrou que o raciocínio pode ser obtido por meio do incitamento
> sozinho e preparou o terreno para treinamentos futuros focados em raciocínio
14. ReAct: Raciocínio e Atuação (Yao et al., 2022 / ICLR 2023)
> A base dos sistemas agenticos
> Combina trilhas de raciocínio com uso de ferramentas e interação com o ambiente
15. DeepSeek-R1: Incentivando a Capacidade de Raciocínio em LLMs via Aprendizagem por Reforço (Guo et al., 2025)
> O artigo R1. Provou que aprendizado por reforço em grande escala sem
> dados supervisionados podem induzir autoverificação e raciocínio estruturado
16. Relatório Técnico Qwen3 (Yang et al., 2025)
> Visão geral de arquitetura moderna e leve
> Introduziu o MoE unificado com Modo de Pensamento e Não-Pensamento
> Modo para negociar dinamicamente custo e profundidade de raciocínio
17. Redes Neurais Absurdamente Grandes: Mistura Escassamente Limitada de Especialistas (Shazeer et al., 2017)
> O ponto de ignição moderno do MoE
> Computação condicional em escala
18. Transformadores de Interruptor (Fedus et al., 2021)
> Roteamento MoE simplificado usando ativação de um único especialista
> Chave para estabilizar o treinamento com trilhões de parâmetros
19. Mixtral de Especialistas (Mistral AI, 2024)
> MoE de peso aberto que provou que modelos esparsos podem igualar qualidade densa
> enquanto roda ao custo de inferência de modelos pequenos
20. Upcycling Esparso: Treinamento de Mistura de Especialistas em Pontos de Controle Densos (Komatsuzaki et al., 2022 / ICLR 2023)
> Técnica prática para converter checkpoints densos em modelos MoE
> Crítico para reutilização de computação e escalonamento iterativo
21. A Hipótese da Representação Platônica (Huh et al., 2024)
> Evidências de que modelos escalonados convergem para o compartilhamento
> representações internas entre modalidades
22. Livros Didáticos São Tudo O Que Você Precisa (Gunasekar et al., 2023)
> Demonstrou que dados sintéticos de alta qualidade permitem
> modelos pequenos superem os muito maiores
23. Escala da Monosemanicidade: Extraindo Características Interpretáveis do Soneto Claude 3 (Templeton et al., 2024)
> O maior salto na interpretabilidade mecanicista
> Decompõe redes neurais em milhões de características interpretáveis
24. PaLM: Escalonando Modelagem de Linguagem com Vias (Chowdhery et al., 2022)
> Uma masterclass em treinamento em grande escala
> orquestração em milhares de aceleradores
25. GLaM: Modelo de Linguagem Generalista (Du et al., 2022)
> Validou a economia de escalabilidade do MoE com Massive
> parâmetros totais, mas pequenas contagens de parâmetros ativos
26. O Manual de Treinamento Smol (Abraços no Rosto, 2025)
> Manual prático de ponta a ponta para treinar modelos de linguagem de forma eficiente
Material Bônus
> T5: Explorando os Limites da Aprendizagem por Transferência com um Transformador Unificado de Texto para Texto (Raffel et al., 2019)
> Toolformer (Schick et al., 2023)
> GShard (Lepikhin et al., 2020)
> Misturas Adaptativas de Especialistas Locais (Jacobs et al., 1991)
> Misturas Hierárquicas de Especialistas (Jordan e Jacobs, 1994)
Se você entende profundamente esses fundamentos; Transformer Core, leis de escalonamento, FlashAttention, ajuste de instruções, raciocínio estilo R1 e upcycling MoE, você já entende os LLMs melhor que a maioria
Hora de se fechar, boa sorte!
Melhores
Classificação
Favoritos

