OCRBench v2: An Improved Benchmark for Evaluating LMMs on Visual Text

核心结论

提出 OCRBench v2，目前最大规模的双语文本中心 benchmark，8 大核心 OCR 能力 x 23 个具体任务 x 31 种场景。
包含 10,000 条人工验证 QA 对 + 1,500 张私有测试集图片，评估 LMM 的 text localization、handwritten extraction 和 logical reasoning。

来源：华中科技大学、华南理工大学、Adelaide、字节跳动，2024。
8 大核心能力：text recognition、text referring、text spotting、relation extraction、element parsing、mathematical calculation、visual text understanding、knowledge reasoning。
发现：大多数 LMM 得分低于 50/100，存在五大类不足：罕见文字识别、细粒度感知、布局感知、复杂元素解析、逻辑推理。
与 OmniDocBench、MMLONGBENCH-DOC 等形成互补，覆盖更偏向 OCR 基础能力的评估。