OmniDocBench: Benchmarking Diverse PDF Document Parsing

核心结论

来源：上海 AI Lab（Shanghai AI Laboratory）、Abaka AI、2077AI，2024。
981 页高质量标注，19 种布局类别标签，15 种属性标签。
支持三级评估：(1) End-to-End：全页解析质量；(2) Task-Specific：布局检测、OCR、表格识别、公式解析分项评估；(3) Attribute-Based：按文档类型、页面属性的细粒度分析。
同时评估了 Pipeline 方法（MinerU、Marker）和端到端 VLM 方法（GPT-4o、Qwen2-VL），揭示不同方法的优劣势分布。
解决了已有 benchmark 的三个问题：文档类型单一、评估指标不统一、缺乏细粒度分析。