PDF 文档解析
定义
PDF 文档解析是指从 PDF 格式的文档中提取结构化、可机读内容(文本、表格、公式、阅读顺序)的技术任务。是 LLM 训练数据构建和 RAG 系统的关键基础设施。
两大技术范式
1. Pipeline 方法
将文档解析分解为多个独立模块串联:
- 布局检测(Document Layout Analysis)
- OCR 文字识别
- 公式识别(LaTeX/HTML)
- 表格识别(HTML/Markdown)
- 阅读顺序估计
- 代表工具:MinerU、Marker、Grobid
- 优点:模块化、可并行、效率高
- 缺点:模块间错误累积,跨领域泛化有限
2. End-to-End VLM 方法
使用视觉语言模型直接从 PDF 页面图像输出结构化文本:
- 代表:Nougat、GOT-OCR、olmOCR、GPT-4o
- 优点:端到端简化流程,泛化能力强
- 挑战:计算成本高(GPT-4o ~$6,240/百万页),封闭 API 可能不可用
关键挑战
- PDF 格式的特殊性:PDF 存储的是字符坐标而非逻辑文本流,缺乏阅读顺序信息
- 文档多样性:学术论文 vs 教科书 vs 手写笔记 vs 报纸 vs 财务报表
- 复杂元素:多栏布局、浮动图表、跨页表格、行内公式、脚注
- 质量差异:扫描质量、字体大小、语言混合
评估方法
- Evals 需覆盖:文本准确性、结构保真度、阅读顺序正确性、表格/公式完整性
- OmniDocBench:9 种文档类型三级评估
- olmOCR:unit-test 风格评估,7K+ 测试用例
- 关键指标:Edit Distance、BLEU、表格 TEDS、公式 CDM