RAG 检索增强生成
核心结论
Facebook/Meta AI 提出 RAG(Retrieval-Augmented Generation),将预训练的参数化记忆(seq2seq 模型)与非参数化记忆(Wikipedia 稠密向量索引)结合,用于知识密集型 NLP 任务。RAG 在开放域 QA、事实验证、知识增强生成等任务上达到 SOTA,且具有知识热更新、来源可追溯的优势。
关键事实
- 作者:Patrick Lewis、Ethan Perez 等(Facebook AI Research & UCL & NYU),2020
- 两种公式:(1) RAG-Sequence:同一检索文档用于整个解码序列;(2) RAG-Token:每个 token 可依赖不同检索文档
- 检索器:DPR(Dense Passage Retrieval),文档编码器为 BERT-base
- 生成器:BART-large(400M 参数)
- 非参数记忆:Wikipedia dump 的稠密向量索引(~21M 文档片段)
- 知识更新:只替换向量索引即可实现知识热更新,无需重新训练
方法或论证路径
- 输入 x + 检索的 top-k 文档 z → 生成输出 y
- 训练:联合微调检索器和生成器(端到端训练检索器是当时的关键贡献)
- 评估:开放域 QA(Natural Questions、TriviaQA、WebQuestions)、事实验证(FEVER)、MS-MARCO
- 消融实验:展示检索器质量、文档数量 k、RAG-Sequence vs RAG-Token 的影响
与现有 Wiki 的关系
- 关联:RAG 检索增强生成、大语言模型基础
- 补充:RAG 是当前 LLM Agent 工具使用(检索 API)、知识库问答的核心范式来源
- 对比:与纯生成模型(GPT 系列)的内化知识形成互补——RAG 擅长事实准确性,GPT 擅长流畅性
可能的矛盾或待核实点
- 论文仅验证了 QA 和事实验证任务,在代码生成、多模态等场景的效果需后续工作补全
- 端到端训练检索器 vs 冻结检索器的收益在更强大生成器上是否仍然成立
后续问题
- RAG 与长上下文模型(128K+ token)的关系:长上下文是否可以取代检索?
- RAG 在多模态场景(RAG+Image Generation)的扩展