经典论文打底,
前沿周更跟进。
精心撰写的核心 AI 论文摘要——核心思想、公式推导、面试考点。不是 arXiv 堆砌。
Attention Is All You Need
Vaswani et al.
用 Self-Attention 完全取代 RNN 和 CNN——Transformer 架构的开山之作,几乎所有现代 LLM 的地基。
BERT: Pre-training of Deep Bidirectional Transformers
Devlin et al.
Masked Language Modeling + 双向 Transformer Encoder——预训练+微调范式的奠基之作。
Language Models are Few-Shot Learners (GPT-3)
Brown et al.
175B 参数的 Decoder-only LM,首次展示 "只通过 Prompt 就能解决新任务" 的 In-Context Learning 能力。
Training language models to follow instructions (InstructGPT)
Ouyang et al.
RLHF 的奠基工作——SFT + Reward Model + PPO 的三阶段对齐框架,直接催生了 ChatGPT。
LoRA: Low-Rank Adaptation of Large Language Models
Hu et al.
用两个低秩矩阵(A·B)替代全参数微调——训练参数量降到 0.1%-1%,推理零额外开销。
RoFormer: Rotary Position Embedding
Su et al.
用二维旋转矩阵编码位置——相对位置天然反映在 query 和 key 的点积里,支持长度外推。
FlashAttention: Fast and Memory-Efficient Exact Attention
Dao et al.
用 tiling + recomputation 把 O(n²) 注意力从 HBM IO-bound 变成 SRAM compute-bound——**精确** attention,不近似。
Chain-of-Thought Prompting Elicits Reasoning
Wei et al.
给 LLM few-shot 示例时加入推理过程("Let's think step by step"),数学/常识推理性能飙升。
Direct Preference Optimization
Rafailov et al.
数学证明 RLHF 的 RM+PPO 两阶段可以合成一个 SFT-style 损失——跳过 RM,直接从偏好数据优化策略。
Retrieval-Augmented Generation for Knowledge-Intensive NLP
Lewis et al.
把参数化知识(LM 权重内)和非参数化知识(外部向量库)结合——RAG 赛道的起点。
CLIP: Learning Transferable Visual Representations
Radford et al.
4 亿图文对 + 对比学习——零样本图像分类能和监督训练的 ResNet 匹敌。
LLaVA: Visual Instruction Tuning
Liu et al.
CLIP-ViT + LLaMA + 一个 linear projection——简单但有效的开源 VLM 基线。
Efficient Memory Management for LLM Serving with PagedAttention (vLLM)
Kwon et al.
借鉴操作系统虚拟内存——把 KV Cache 分成固定大小的块,大幅减少内存碎片,吞吐提升 2-4×。
DeepSeek R1: Incentivizing Reasoning via Reinforcement Learning
DeepSeek-AI
纯 RL(无 SFT warmup)激发涌现的推理能力——Chain-of-Thought 自然从奖励信号中生长。
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Gu, Dao
选择性状态空间模型——O(N) 复杂度,媲美 Transformer 的语言建模能力。可能是 post-Transformer 时代的候选之一。