热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
也许有大约 20-25 篇重要的论文。
实现这些,你就捕捉到了现代 LLM 背后的 ~90% alpha。
其他的都是装饰。
你想要那份清单吗?别再找了……
掌握 LLM 和 Transformer 的 26 篇必读论文 (+5 个额外资源)
这份清单将 Transformer 基础与推理、MoE 和代理转变相结合。
推荐阅读顺序
1. Attention Is All You Need (Vaswani et al., 2017)
> 原始的 Transformer 论文。涵盖自注意力、
> 多头注意力和编码器-解码器结构
> (尽管大多数现代 LLM 仅为解码器)。
2. The Illustrated Transformer (Jay Alammar, 2018)
> 理解注意力和张量流的绝佳直观构建,
> 在深入实现之前。
3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018)
> 编码器侧的基础知识、掩码语言建模,
> 以及仍在塑造现代架构的表示学习。
4. Language Models are Few-Shot Learners (GPT-3) (Brown et al., 2020)
> 确立了上下文学习作为一种真实的
> 能力,并改变了对提示的理解。
...
热门
排行
收藏
