RAG2020· NeurIPS 2020· CLASSIC

Retrieval-Augmented Generation for Knowledge-Intensive NLP

Lewis et al.

把参数化知识（LM 权重内）和非参数化知识（外部向量库）结合——RAG 赛道的起点。

#rag#retrieval#foundational

核心贡献

text

 1Query → [Retriever] → Top-k docs → [Generator conditioned on docs] → Answer

Dense Passage Retrieval——两个独立 BERT encoder：

Seq2Seq Transformer。输入：[query] [doc_1] [doc_2] ... [doc_k]。输出：答案。

RAG-Sequence: $p(y|x) = \sum_z p(z|x) \cdot p(y|x, z)$ ——每个候选 doc z 独立生成一份答案，再用 retrieval 概率加权
RAG-Token: 每个 token 的生成时对 k 个 doc 做 marginalize——同一句话可以从不同 doc 采证据

实战中 RAG-Sequence 更稳；RAG-Token 理论更好但实现复杂。

Retriever 和 Generator 联合优化：

面试视角

"为什么需要 RAG？" 三个痛点：

RAG 把"知识存储"和"语言生成"解耦——知识可以实时更新。

"RAG 的 pipeline 各环节最容易出问题的是什么？"（非常高频）

Retriever recall 低：query 和文档语义错位、embedding 模型不够强 → Rerank、HyDE、Query Rewriting
Chunking 策略：太小上下文割裂、太大噪声稀释 → Semantic chunking、父子 chunk
Generator 不遵循上下文：产生上下文里没提到的信息 → Faithfulness prompt、后验事实核查

"RAG 的演进方向？"

"RAG 效果如何评估？" 分层：