也許有大約 20-25 篇重要的論文。 實施這些,你就捕捉到了現代 LLM 背後約 90% 的 alpha。 其他的都是裝飾。 你想要那個清單嗎?不必再找了…… 掌握 LLM 和 Transformers 的 26 篇必讀論文 (+5 額外資源) 這個清單將 Transformer 基礎與推理、MoE 和代理轉變相連接。 推薦閱讀順序 1. Attention Is All You Need (Vaswani et al., 2017) > 原始的 Transformer 論文。涵蓋自注意力、 > 多頭注意力和編碼器-解碼器結構 > (儘管大多數現代 LLM 只有解碼器)。 2. The Illustrated Transformer (Jay Alammar, 2018) > 理解注意力和張量流的絕佳直覺建構, > 在深入實現之前。 3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018) > 編碼器端的基本原理、掩碼語言建模, > 以及仍然塑造現代架構的表示學習。 4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020) > 確立了上下文學習作為一種真正的 > 能力,並改變了對提示的理解。 ...