olmOCR: Unlocking Trillions of Tokens in PDFs with VLMs
核心结论
- 提出 olmOCR,一个开源 PDF 文本提取与线性化工具包,基于微调的 Qwen2-VL 7B VLM。
- 处理百万页 PDF 仅需 $176 USD,性能超越 GPT-4o、Gemini Flash 2 等商用 API。
关键事实
- 来源:Allen Institute for AI (AI2),2024。
- 训练数据 olmOCR-mix-0225:从 10 万份爬取 PDF 中采样 26 万页,由 GPT-4o 生成 OCR 标注。
- 评测基准 olmOCR-Bench:1,400 页 PDF,7,000+ 单元测试(unit-test 风格),覆盖公式、表格、小字体、旧扫描件等挑战内容。
- 支持 vLLM 和 SGLang 推理引擎,可扩展至数百 GPU。
- 下游验证:处理 790 万页 peS2o 科学文献 PDF,替换原有提取文本后训练 LM,下游 benchmark 性能提升。
- 与传统 pipeline 工具(MinerU、Marker)和端到端 VLM 的对比中均表现最优。
与现有 Wiki 的关系
后续问题
- 对中文、多语言 PDF 的支持程度?
- 扫描版 PDF 中手写体识别的准确率如何?