OCRBench v2: An Improved Benchmark for Evaluating LMMs on Visual Text

核心结论

  • 提出 OCRBench v2,目前最大规模的双语文本中心 benchmark,8 大核心 OCR 能力 x 23 个具体任务 x 31 种场景。
  • 包含 10,000 条人工验证 QA 对 + 1,500 张私有测试集图片,评估 LMM 的 text localization、handwritten extraction 和 logical reasoning。

关键事实

  • 来源:华中科技大学、华南理工大学、Adelaide、字节跳动,2024。
  • 8 大核心能力:text recognition、text referring、text spotting、relation extraction、element parsing、mathematical calculation、visual text understanding、knowledge reasoning。
  • 发现:大多数 LMM 得分低于 50/100,存在五大类不足:罕见文字识别、细粒度感知、布局感知、复杂元素解析、逻辑推理。
  • 与 OmniDocBench、MMLONGBENCH-DOC 等形成互补,覆盖更偏向 OCR 基础能力的评估。

与现有 Wiki 的关系

后续问题

  • 中文和英文性能差距的系统分析?
  • 如何设计针对特定应用场景的 OCR subset evaluation?