Language Models are Few-Shot Learners (GPT-3)
Brown et al.
175B 参数的 Decoder-only LM,首次展示 "只通过 Prompt 就能解决新任务" 的 In-Context Learning 能力。
arXiv:2005.14165核心贡献
- 01175B 参数,当时最大的稠密语言模型
- 02Few-shot / One-shot / Zero-shot 能力:不更新参数,仅靠 prompt 中的示例就能做新任务
- 03验证了 Scaling Law——模型越大,In-Context Learning 能力越强
- 04Prompt Engineering 时代的起点
- 05在翻译、问答、算术、新闻生成等大量任务上展示涌现能力
核心思想
GPT-3 不做任务微调。你直接给它几个输入输出示例,它就能理解任务并做推理:
1Translate English to French:2sea otter => loutre de mer3cheese => fromage4peppermint => ???
这就是 In-Context Learning (ICL)——模型把 prompt 里的示例当成一次性的 "程序输入",在前向传播中模拟任务求解。
为什么能 work?
- 超大规模预训练数据:见过几乎所有模式
- 足够大的容量:175B 参数有足够带宽把复杂任务映射内化
- Attention 的内在结构:论文后续研究表明,Attention 可以在前向传播中实现隐式梯度下降——即模型在 prompt 内部完成了某种 "在线学习"
架构
和 GPT-2 基本一致——96 层 Decoder-only Transformer。唯一真正的变化是 scale:
- 参数:1.5B (
GPT-2) → 175B - 数据:40GB → 570GB(CommonCrawl + WebText + 书籍 + Wikipedia)
- 训练 token:~300B
面试考点
In-Context Learning 的机制:为什么不更新参数也能学?主流解释:
- Induction Heads 假说:
Transformer内部有特定注意力 head 能做 pattern copy - Implicit Gradient Descent:Attention 数学上等价于一种线性回归求解器
Scaling Law 的含义:loss 随参数、数据、计算量呈幂律下降。但注意后续 Chinchilla 修正了 GPT-3 的数据/参数比——GPT-3 是过参数化的。
Prompt 位置敏感性:few-shot 中示例顺序会显著影响结果(Recency Bias、Majority Label Bias),这是后来 Chain-of-Thought 和 Prompt Optimization 的起点。
和 BERT 的对比:GPT-3 展示了 Decoder-only + Causal LM 也能做分类理解任务,而且可以零样本零微调。这直接影响了后续 LLM 的架构选择(LLaMA、GPT-4 都是 Decoder-only)。