DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Ahmad

pesquisador de IA e engenheiro de software, em uma missão para construir um cluster de GPU DGX B200

Existem talvez ~20-25 artigos que importam. Implemente esses e você capturou ~90% do alfa por trás dos LLMs modernos. Todo o resto é guarnição. Quer essa lista? Não procure mais... Os 26 Melhores Trabalhos Essenciais (+5 Recursos Bônus) para Masterização de LLMs e Transformers Esta lista faz a ponte entre as fundações do Transformer com o raciocínio, MoE e mudança agential Ordem de leitura recomendada 1. Atenção é tudo o que você precisa (Vaswani et al., 2017) > O artigo original do Transformer. Cobre a autoatenção, > atenção multi-cabeças e a estrutura codificador-decodificador > (mesmo que a maioria dos LLMs modernos seja apenas decodificador.) 2. O Transformador Ilustrado (Jay Alammar, 2018) > Ótimo construtor de intuição para entender > atenção e fluxo tensorial antes de mergulhar nas implementações 3. BERT: Pré-treinamento de transformadores bidirecionais profundos (Devlin et al., 2018) > Fundamentos do lado do codificador, modelagem de linguagem mascarada, > e aprendizagem representativa que ainda moldam as arquiteturas modernas 4. Modelos de Linguagem são Aprendizes de Poucos Tiros (GPT-3) (Brown et al., 2020) > Estabelecimento do aprendizado em contexto como algo real > capacidade e mudou a forma como o incentivo é entendido 5. Leis de Escalabilidade para Modelos de Linguagem Neural (Kaplan et al., 2020) > Primeiro framework empírico limpo de escalonamento para parâmetros, dados e computação > Leia junto com Chinchilla para entender por que a maioria das modelos era pouco treinada 6. Treinamento de Modelos de Linguagem Computacional Ótimos (Chinchilla) (Hoffmann et al., 2022) > Demonstrou que a contagem de tokens importa mais do que > contagem de parâmetros para um orçamento de computação fixo 7. LLaMA: Modelos de Linguagem de Fundação Abertos e Eficientes (Touvron et al., 2023) > O papel que desencadeou a era dos pesos abertos > Introduziu padrões arquitetônicos como RMSNorm, SwiGLU > e RoPE como prática padrão 8. RoFormer: Embedding de Posição Rotativa (Su et al., 2021) > Codificação posicional que se tornou o padrão moderno para LLMs de contexto longo 9. FlashAttention (Dao et al., 2022) > Atenção eficiente em memória que permitiu longas janelas de contexto > e inferência de alta taxa de transferência otimizando o acesso à memória da GPU. 10. Geração Aumentada por Recuperação (RAG) (Lewis et al., 2020) > Combina modelos paramétricos com fontes externas de conhecimento > Fundamentação para sistemas aterrados e empresariais 11. Treinamento de Modelos de Linguagem para Seguir Instruções com Feedback Humano (InstructGPT) (Ouyang et al., 2022) > O plano moderno pós-treinamento e alinhamento > que os modelos ajustados à instrução seguem 12. Otimização por Preferência Direta (DPO) (Rafailov et al., 2023) > Uma alternativa mais simples e estável ao RLHF baseado em PPO > Alinhamento de preferências via função de perda 13. O Incitamento por Cadeia de Pensamento Provoca Raciocínio em Grandes Modelos de Linguagem (Wei et al., 2022) > Demonstrou que o raciocínio pode ser obtido por meio do incitamento > sozinho e preparou o terreno para treinamentos futuros focados em raciocínio 14. ReAct: Raciocínio e Atuação (Yao et al., 2022 / ICLR 2023) > A base dos sistemas agenticos > Combina trilhas de raciocínio com uso de ferramentas e interação com o ambiente 15. DeepSeek-R1: Incentivando a Capacidade de Raciocínio em LLMs via Aprendizagem por Reforço (Guo et al., 2025) > O artigo R1. Provou que aprendizado por reforço em grande escala sem > dados supervisionados podem induzir autoverificação e raciocínio estruturado 16. Relatório Técnico Qwen3 (Yang et al., 2025) > Visão geral de arquitetura moderna e leve > Introduziu o MoE unificado com Modo de Pensamento e Não-Pensamento > Modo para negociar dinamicamente custo e profundidade de raciocínio 17. Redes Neurais Absurdamente Grandes: Mistura Escassamente Limitada de Especialistas (Shazeer et al., 2017) > O ponto de ignição moderno do MoE > Computação condicional em escala 18. Transformadores de Interruptor (Fedus et al., 2021) > Roteamento MoE simplificado usando ativação de um único especialista > Chave para estabilizar o treinamento com trilhões de parâmetros 19. Mixtral de Especialistas (Mistral AI, 2024) > MoE de peso aberto que provou que modelos esparsos podem igualar qualidade densa > enquanto roda ao custo de inferência de modelos pequenos 20. Upcycling Esparso: Treinamento de Mistura de Especialistas em Pontos de Controle Densos (Komatsuzaki et al., 2022 / ICLR 2023) > Técnica prática para converter checkpoints densos em modelos MoE > Crítico para reutilização de computação e escalonamento iterativo 21. A Hipótese da Representação Platônica (Huh et al., 2024) > Evidências de que modelos escalonados convergem para o compartilhamento > representações internas entre modalidades 22. Livros Didáticos São Tudo O Que Você Precisa (Gunasekar et al., 2023) > Demonstrou que dados sintéticos de alta qualidade permitem > modelos pequenos superem os muito maiores 23. Escala da Monosemanicidade: Extraindo Características Interpretáveis do Soneto Claude 3 (Templeton et al., 2024) > O maior salto na interpretabilidade mecanicista > Decompõe redes neurais em milhões de características interpretáveis 24. PaLM: Escalonando Modelagem de Linguagem com Vias (Chowdhery et al., 2022) > Uma masterclass em treinamento em grande escala > orquestração em milhares de aceleradores 25. GLaM: Modelo de Linguagem Generalista (Du et al., 2022) > Validou a economia de escalabilidade do MoE com Massive > parâmetros totais, mas pequenas contagens de parâmetros ativos 26. O Manual de Treinamento Smol (Abraços no Rosto, 2025) > Manual prático de ponta a ponta para treinar modelos de linguagem de forma eficiente Material Bônus > T5: Explorando os Limites da Aprendizagem por Transferência com um Transformador Unificado de Texto para Texto (Raffel et al., 2019) > Toolformer (Schick et al., 2023) > GShard (Lepikhin et al., 2020) > Misturas Adaptativas de Especialistas Locais (Jacobs et al., 1991) > Misturas Hierárquicas de Especialistas (Jordan e Jacobs, 1994) Se você entende profundamente esses fundamentos; Transformer Core, leis de escalonamento, FlashAttention, ajuste de instruções, raciocínio estilo R1 e upcycling MoE, você já entende os LLMs melhor que a maioria Hora de se fechar, boa sorte!

Melhores

Classificação

Favoritos