OCRBench v2: An Improved Benchmark for Evaluating LMMs on Visual Text
核心结论
- 提出 OCRBench v2,目前最大规模的双语文本中心 benchmark,8 大核心 OCR 能力 x 23 个具体任务 x 31 种场景。
- 包含 10,000 条人工验证 QA 对 + 1,500 张私有测试集图片,评估 LMM 的 text localization、handwritten extraction 和 logical reasoning。
关键事实
- 来源:华中科技大学、华南理工大学、Adelaide、字节跳动,2024。
- 8 大核心能力:text recognition、text referring、text spotting、relation extraction、element parsing、mathematical calculation、visual text understanding、knowledge reasoning。
- 发现:大多数 LMM 得分低于 50/100,存在五大类不足:罕见文字识别、细粒度感知、布局感知、复杂元素解析、逻辑推理。
- 与 OmniDocBench、MMLONGBENCH-DOC 等形成互补,覆盖更偏向 OCR 基础能力的评估。
与现有 Wiki 的关系
后续问题
- 中文和英文性能差距的系统分析?
- 如何设计针对特定应用场景的 OCR subset evaluation?