LLM2020· NeurIPS 2020· CLASSIC

Language Models are Few-Shot Learners (GPT-3)

Brown et al.

175B 参数的 Decoder-only LM，首次展示 "只通过 Prompt 就能解决新任务" 的 In-Context Learning 能力。

#gpt#pretrain#scaling#in-context-learning#foundational

核心贡献

GPT-3 不做任务微调。你直接给它几个输入输出示例，它就能理解任务并做推理：

text

 1Translate English to French:
 2sea otter => loutre de mer
 3cheese => fromage
 4peppermint => ???

这就是 In-Context Learning (ICL)——模型把 prompt 里的示例当成一次性的 "程序输入"，在前向传播中模拟任务求解。

超大规模预训练数据：见过几乎所有模式
足够大的容量：175B 参数有足够带宽把复杂任务映射内化
Attention 的内在结构：论文后续研究表明，Attention 可以在前向传播中实现隐式梯度下降——即模型在 prompt 内部完成了某种 "在线学习"

和 GPT-2 基本一致——96 层 Decoder-only Transformer。唯一真正的变化是 scale：

面试视角

In-Context Learning 的机制：为什么不更新参数也能学？主流解释：

Scaling Law 的含义：loss 随参数、数据、计算量呈幂律下降。但注意后续 Chinchilla 修正了 GPT-3 的数据/参数比——GPT-3 是过参数化的。

Prompt 位置敏感性：few-shot 中示例顺序会显著影响结果（Recency Bias、Majority Label Bias），这是后来 Chain-of-Thought 和 Prompt Optimization 的起点。

和 BERT 的对比：GPT-3 展示了 Decoder-only + Causal LM 也能做分类理解任务，而且可以零样本零微调。这直接影响了后续 LLM 的架构选择（LLaMA、GPT-4 都是 Decoder-only）。