OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=aH7eyx64pC
代码: https://github.com/SCUT-DLVCLab/OCR-Reasoning
领域: 多模态VLM / LLM推理 / 数据集与基准
关键词: 富文本图像推理、OCR、慢思考、推理过程评测、基准

一句话总结¶

作者构建了 OCR-Reasoning——首个系统评测多模态大模型「富文本图像推理」能力的基准，包含 1069 条人工标注样本、覆盖 6 大推理能力 / 18 个实际任务，且同时标注最终答案与逐步推理过程；结果显示即便最强的 MLLM 准确率也不超过 50%，暴露出该方向远未被解决。

研究背景与动机¶

领域现状：以 OpenAI-o1、DeepSeek-R1、Gemini-Thinking 为代表的「慢思考」系统借助 Chain-of-Thought 和测试时算力扩展，在数学、代码、科学推理上取得显著进展，并催生了一批多模态慢思考模型。为了评测它们的推理能力，社区已经做出 MathVista、MathVerse、MMMU 等针对数学和学科知识的专门基准。

现有痛点：但在「富文本图像」（文档、图表、票据、信息图、手写题等文字密集场景）这个高频应用方向上，评测基准是缺位的。现有的 DocVQA、ChartQA、OCRBench 等基准只考察模型把文字「读出来」的感知能力，并只标注最终答案——它们大多数题目的答案直接出现在图像的 OCR 结果里，模型靠「快思考」直接抽取即可，根本不需要推理。

核心矛盾：富文本场景里其实充满需要深度分析的任务，例如财报分析、发票核算、性价比购买决策；可现有基准既无法把「能抽出答案」和「会推理」区分开，也没有对推理过程本身做评估。换句话说，旧基准的评测焦点（感知/抽取）与真实需求（感知之上的推理）之间存在结构性错配。

本文目标：填补这个空白，需要解决三个子问题——(1) 怎样收集到「答案不在 OCR 结果里、必须推理才能得出」的高难度样本；(2) 怎样系统地定义并覆盖富文本推理涉及的核心子能力；(3) 怎样既评最终答案、又评推理过程。

切入角度：作者观察到，把现有基准的答案与图像 OCR 结果做匹配，DocVQA/OCRBench 等有 78%~99.8% 的题目答案直接含在 OCR 文本里，而精心设计的 OCR-Reasoning 仅 2.3%。这个对比直接量化了「现有基准考的是抽取、不是推理」，于是从「答案不可直接抽取」这一筛选原则出发构造数据，就能逼出真正的推理能力。

核心 idea：用「双重标注（答案 + 逐步推理过程）+ 6 类核心推理能力分类法」构造一个答案无法从 OCR 直接读出的富文本推理基准，从而把 MLLM 在该场景下被高估的真实能力揭示出来。

方法详解¶

OCR-Reasoning 是一个评测基准，核心工作是「怎么造出一份高质量、能区分推理与抽取的富文本推理数据」以及「怎么公平地评测答案与推理过程」。整体上分两条线：四步数据构建流水线（采集 → 标注 → 校正 → 分类），以及三阶段评测协议（答案抽取式打分 + LLM-as-judge 评推理过程）。最终产出 1069 条样本、1022 张唯一图像，覆盖 6 类推理能力、18 个实际任务。

整体框架¶

数据构建是一条人在回路的四步流水线，每一步都有专家把关与质量控制：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像来源<br/>网络 / 实拍 / 已有基准 / 手写"] --> B["1. 数据采集<br/>难度筛选：答案不在 OCR 里"]
    B --> C["2. 双路标注<br/>人工 vs 模型各产推理过程+答案"]
    C --> D["3. 数据校正<br/>三标注员择优+人工复审"]
    D --> E["4. 推理能力分类<br/>6 类能力·两阶段多数表决"]
    E --> F["1069 题双重标注<br/>答案 + 逐步推理过程"]
    F --> G["三阶段评测协议<br/>答案准确率 + LLM-as-judge 评过程"]

最终数据集 1069 题分两种格式：选择题 250 题（23.4%），自由作答 819 题（76.6%，又分整数/浮点/字符串）；92.3% 的题目和 100% 的推理路径都是新标注的。推理链 + 答案平均长 421 字符、最长 3106 字符，体现题目复杂度。此外作者明确把范围限定在「单图」：多图/多文档主要考长上下文能力、会混淆推理评测，且不少文档型 MLLM 只在单图上训练过，纳入多图会把它们排除在外。

关键设计¶

1. 难度筛选：答案不可从 OCR 直接抽取

这是整个基准区别于 DocVQA/OCRBench 的根，直接针对「旧基准考抽取不考推理」的痛点。作者用一个可量化的判据来卡题目难度：统计「答案是否包含在图像 OCR 结果中」的样本比例。现有基准这一比例高达 78.4%（ChartVQA）到 99.8%（DocVQA），意味着模型靠快思考从识别结果里直接抄即可；而 OCR-Reasoning 把该比例压到 2.3%。要做到这点，作者主动构造答案需要跨步骤计算/推断的题目（如「Package One 比单买便宜多少」需要先列出各项价格、求和、再相减），并过滤掉低分辨率、噪声过大的图。数据来源刻意多元——476 张网络图、253 张街景/手写实拍、293 张来自 InfoVQA/DocVQA/ChartQA/CharXiv/WildReceipt/MME-Finance 等已有基准——并特意补充了稀缺的手写推理数据（标注员手写大学级化学、物理、几何、函数、统计题再拍照），逼模型同时具备强 OCR 与强推理。

2. 双路标注 + 择优校正：保证推理过程标注的质量

富文本推理基准的真正难点不在答案，而在「逐步推理过程」也要标得对、标得好，否则无法评过程。作者对每张图先让三名 STEM 方向博士标注员各出一题，再由其他标注员打分选出最优问题；随后用两条并行通路生成推理过程与答案——一条是人工手写推理链，一条是把问题与答案喂给闭源 MLLM（如 Gemini 2.0 Flash）生成另一版推理过程。校正阶段再由三名标注员对两条通路的标注打分，取平均分更高的那条作为最终推理过程与答案，最后再做一轮人工复审纠错。这种「双路竞争 + 多评审择优 + 人工兜底」让每条推理路径都经过对比筛选，而非单一来源一锤定音。

3. 六类核心能力分类法 + 两阶段多数表决归类

为了让评测「系统化」而非一锅烩，作者把富文本推理拆成 6 类核心能力：空间推理、数值分析推理、数学推理、枚举推理、逻辑推理、跨学科知识推理，并细化为 18 个实际任务（如财务分析、K 线分析、排程分析、条件计数、化学/物理/几何题、IQ 测试、博弈逻辑、关系抽取等）。其中数值分析占比最大（37.0%），因为它涵盖 5 种现实任务、多于其他类的 2~3 种；数学推理题特意用手写体，对 OCR 要求更高。归类时为降低人为偏差采用两阶段做法：先由三名标注员各自独立把样本归入 6 类之一，再用多数表决（plurality consensus）确定最终类别。这套分类法让基准能逐能力维度地暴露模型短板，而不是只给一个笼统总分。

4. 三阶段评测协议 + LLM-as-judge 评推理过程

有了双重标注，评测也要兼顾答案与过程。答案侧沿用三阶段框架：(1) 模型生成详细回答；(2) 用 LLM 抽取器（如 GPT-4o）从回答里语义解析出简洁答案，作者在 200 例预研上验证抽取准确率 >99.5%；(3) 把抽取答案归一化为标准格式（选项字母/整数/字符串）后做确定性的准确率计算。过程侧则用 LLM-as-judge：给定问题、模型详细回答与推理轨迹的 ground truth，让 LLM 裁判直接打分。作者用人工对齐验证了裁判的可信度——DouBao-1.5-Vision-Pro 人评 53.1 vs 裁判 55.4、Qwen2.5-VL-72B 50.2 vs 51.8、Llama4-Scout 43.8 vs 44.9、OpenAI-o1 47.6 vs 48.5，人评与裁判分数高度接近。为应对富文本场景输出格式多样（货币 $15、时长 20 days、时间戳 19:00:00），评测时还用了「格式特定提示」，把期望答案构成（如 $ + Integer）追加到 query 上以便确定性判分。

实验关键数据¶

主实验¶

零样本评测，给模型图像 + 问题并提示「逐步推理」。最终答案准确率（Overall，部分代表性模型）：

类别	模型	Overall 准确率
闭源 MLLM	DouBao-1.5-Vision-Pro	46.8（最高）
闭源 MLLM	OpenAI-o1	44.4
闭源 MLLM	Gemini-2.0-Flash	39.3
闭源 MLLM	GPT-4o	30.7
开源 MLLM	GLM-4.1V-Thinking-9B	44.1
开源 MLLM	MiMo-VL-RL-7B	38.8
开源 MLLM	Qwen2.5-VL-72B	37.5
OCR+LLM	OpenAI-o3-mini（纯文本）	33.3
文档型 MLLM	TokenVL-8B	14.3（文档型最高 <15）
文档型 MLLM	mPLUG-DocOwl2-8B	3.3

核心结论：没有任何模型超过 50%，最强的 DouBao 也只有 46.8%——而它在 DocVQA 上有 96.7%、InfoVQA 89.3%、ChartQA 87.4%，说明富文本「理解」强不等于「推理」强。文档型 MLLM 全线 <15%，基础理解尚可但深度推理乏力。

消融 / 分析实验¶

分析维度	关键观察	说明
视觉输入必要性	把图换成 OCR 文本喂 LLM，性能大跌	DeepSeek-R1-Distill-Qwen-32B 比同底座的 Qwen2.5-VL-32B 低 9.7%，证明纯文本不足以解富文本推理
模型规模	正相关	Qwen2.5-VL 系列：7B 比 3B 高 3.5%，32B 比 7B 高 20.5%
CoT 提示	因模型而异	Qwen2.5-VL-32B +3.2%、GPT-4o +4.2%（空间推理增益最明显）；但 VL-Rethinker-7B 反而下降（训练/测试条件不一致）
Few-shot	总体小幅提升但有副作用	Qwen2.5-VL-7B：one-shot 16.1、three-shot 16.4（数值分析/逻辑受益），但跨学科知识推理下降（长 token + 长推理超出长文本处理能力）
推理过程评分	排名大体与答案准确率一致	例外是 Gemini、Claude-3.7——它们推理过程质量高（很多错样本只是末步小错），DouBao 过程分 55.4 仍最高
RL 方法	多数表现差	奖励函数和训练数据多为印刷体数学题设计，与富文本多场景不匹配

关键发现¶

抽取 ≠ 推理是本基准的灵魂：横向对比表（Tab.6）里 Qwen2.5-VL-7B 在 DocVQA 95.7、ChartQA 87.3、OCRBench 864、TextVQA 84.9，但在 OCR-Reasoning 只有 15.7；评测焦点从「感知」转到「感知+推理」后，强模型断崖式下跌。
能力分布不均：枚举推理是各模型最强项（闭源/开源里常排第一或第二），而空间推理、数学推理普遍最弱。
两个有前景方向：作者指出「为富文本推理专门设计 RL 奖励函数 / 训练数据」和「thinking with images（边看图边想）」都能提升表现，是值得投入的研究方向。

亮点与洞察¶

用一个可量化指标定义难度：「答案是否含于 OCR 结果」的比例（旧基准 78%~99.8% vs 本文 2.3%）一针见血地把「抽取题」和「推理题」分开，这个判据本身就是可复用的数据筛选 trick。
双重标注 + 双路竞争：同时标答案与推理过程、且人工与模型两路 PK 择优，既提升标注质量又天然支持「过程评测」，思路可迁移到任何需要评推理链的基准。
诚实地暴露而非粉饰：论文的价值在于「揭示」——明确告诉社区最强模型也 <50%、文档型模型 <15%，把一个被现有 leaderboard 高估的能力打回原形。
手写数学题的巧思：刻意让标注员手写大学级理科题再拍照，把强 OCR 和强推理的需求耦合在一起，比直接用印刷体更能压住模型。

局限与展望¶

作者承认的局限：仅限单图，多图/多文档/长上下文场景未覆盖；这是为隔离推理能力做的取舍，但也限制了对复杂文档推理的评测。
评测依赖 LLM：答案抽取（GPT-4o）和过程打分（LLM-as-judge）都靠 LLM，虽有人评对齐做背书，仍可能引入裁判模型自身的偏置；过程分对 Gemini/Claude 这类「过程好但答案错」的模型的判定也提示单看过程分会偏高。
规模相对小：1069 题、1022 图，量级与既有推理基准相当但偏小，部分子类（如空间推理 10%）样本有限，逐类结论的统计稳定性需谨慎。
改进思路：把「thinking with images」「为富文本推理定制 RL 奖励/训练数据」从论文指出的方向落地为可训练的方法；或扩展到多图/视频富文本推理。

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统的富文本图像推理基准，「答案不可从 OCR 抽取」的难度判据与双重标注设计有清晰立意
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 OCR+LLM / 闭源 / 开源 / 文档型 30+ 模型，含 CoT、few-shot、RL、推理过程、跨基准对比等多维分析
写作质量: ⭐⭐⭐⭐ 动机—构建—评测逻辑清晰，量化对比有说服力
价值: ⭐⭐⭐⭐⭐ 揭示主流 MLLM 在富文本推理上被高估的真实能力（均 <50%），为社区指明 RL 奖励设计与 thinking-with-images 等方向