LLM2020· NeurIPS 2020· CLASSIC

Language Models are Few-Shot Learners (GPT-3)

Brown et al.

175B 参数的 Decoder-only LM,首次展示 "只通过 Prompt 就能解决新任务" 的 In-Context Learning 能力。

arXiv:2005.14165
#gpt#pretrain#scaling#in-context-learning#foundational

核心贡献

  • 01175B 参数,当时最大的稠密语言模型
  • 02Few-shot / One-shot / Zero-shot 能力:不更新参数,仅靠 prompt 中的示例就能做新任务
  • 03验证了 Scaling Law——模型越大,In-Context Learning 能力越强
  • 04Prompt Engineering 时代的起点
  • 05在翻译、问答、算术、新闻生成等大量任务上展示涌现能力

核心思想

GPT-3 不做任务微调。你直接给它几个输入输出示例,它就能理解任务并做推理:

text
1Translate English to French:
2sea otter => loutre de mer
3cheese => fromage
4peppermint => ???

这就是 In-Context Learning (ICL)——模型把 prompt 里的示例当成一次性的 "程序输入",在前向传播中模拟任务求解。

为什么能 work?

  • 超大规模预训练数据:见过几乎所有模式
  • 足够大的容量:175B 参数有足够带宽把复杂任务映射内化
  • Attention 的内在结构:论文后续研究表明,Attention 可以在前向传播中实现隐式梯度下降——即模型在 prompt 内部完成了某种 "在线学习"

架构

GPT-2 基本一致——96 层 Decoder-only Transformer唯一真正的变化是 scale

  • 参数:1.5B (GPT-2) → 175B
  • 数据:40GB → 570GB(CommonCrawl + WebText + 书籍 + Wikipedia)
  • 训练 token:~300B
面试视角

面试考点

In-Context Learning 的机制:为什么不更新参数也能学?主流解释:

  • Induction Heads 假说:Transformer 内部有特定注意力 head 能做 pattern copy
  • Implicit Gradient Descent:Attention 数学上等价于一种线性回归求解器

Scaling Law 的含义:loss 随参数、数据、计算量呈幂律下降。但注意后续 Chinchilla 修正了 GPT-3 的数据/参数比——GPT-3过参数化的。

Prompt 位置敏感性:few-shot 中示例顺序会显著影响结果(Recency Bias、Majority Label Bias),这是后来 Chain-of-Thought 和 Prompt Optimization 的起点。

BERT 的对比GPT-3 展示了 Decoder-only + Causal LM 也能做分类理解任务,而且可以零样本零微调。这直接影响了后续 LLM 的架构选择(LLaMAGPT-4 都是 Decoder-only)。

相关论文