也许有大约 20-25 篇重要的论文。 实现这些,你就捕捉到了现代 LLM 背后的 ~90% alpha。 其他的都是装饰。 你想要那份清单吗?别再找了…… 掌握 LLM 和 Transformer 的 26 篇必读论文 (+5 个额外资源) 这份清单将 Transformer 基础与推理、MoE 和代理转变相结合。 推荐阅读顺序 1. Attention Is All You Need (Vaswani et al., 2017) > 原始的 Transformer 论文。涵盖自注意力、 > 多头注意力和编码器-解码器结构 > (尽管大多数现代 LLM 仅为解码器)。 2. The Illustrated Transformer (Jay Alammar, 2018) > 理解注意力和张量流的绝佳直观构建, > 在深入实现之前。 3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018) > 编码器侧的基础知识、掩码语言建模, > 以及仍在塑造现代架构的表示学习。 4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020) > 确立了上下文学习作为一种真实的 > 能力,并改变了对提示的理解。 ...