Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs¶

会议: CVPR2026
arXiv: 2512.08923
代码: https://github.com/angelavansprang/Same-Content-Different-Answers
领域: 多模态VLM
关键词: 跨模态一致性、模态鸿沟、benchmark、OCR、render text-as-image

一句话总结¶

作者提出 REST / REST+ 两个 benchmark，把同一道题分别以「纯文本 / 纯图像（渲染成图）/ 图文混合」三种形态喂给 MLLM，并在严格控制 OCR 正确的前提下度量「同样的内容、不同的答案」这一跨模态不一致现象——评测 15 个前沿 MLLM 发现没有一个能在三种模态上稳定一致（不一致率至少 ~10%，最差超 80%），且模型普遍更偏好文本模态，而这种不一致与模型内部图文表征的余弦相似度（模态鸿沟）显著相关。

研究背景与动机¶

领域现状：MLLM 被训练把视觉和语言投影到同一个共享语义空间，主流叙事是「图文已被无缝融合」，模型在 VQA、文档理解、复杂推理上都表现强劲。与此同时，最近 DeepSeek-OCR 这类工作提出一个很有诱惑力的方向：把文本渲染成图像喂给模型，用 1 个视觉 token 压缩 10 个文本 token、还能保持 97% 的 OCR 准确率，从而大幅节省长文本输入的计算成本。

现有痛点：但已有研究又一致观察到「模态鸿沟（modality gap）」——文本 embedding 和图像 embedding 在共享空间里占据不同区域，鸿沟越小下游性能越好。这就引出一个被忽视的根本问题：当模型成功地从图里读出了文字，它对这段信息的推理质量，是否和直接收到原生文本时一样好？如果不一样，那「把文本渲染成图省 token」的省钱方案就可能悄悄牺牲推理正确性。

核心矛盾：现有评测无法干净地回答这个问题，因为它们把两件事混在了一起——识别失败（OCR 读错字）和推理不一致（字读对了但答案不同）。已有 benchmark 要么只评一个模型（Zhang et al.），要么不控制可读性（Omni-R / OmnixR），导致结论里「读不出字」和「读对了却答错」纠缠不清。

本文目标：在严格控制 OCR 正确的条件下，系统度量同一语义内容在不同模态下答案是否一致，并回答四个 RQ——(RQ1) 前沿 MLLM 是否存在跨模态不一致、哪种模态最强；(RQ2) 不一致是否只是 OCR 没做好；(RQ3) 分辨率/字体/颜色等视觉特征是否影响不一致；(RQ4) 内部表征的跨模态相似度是否与不一致程度相关。

核心 idea：构造「渲染等价压力测试」——把语义完全相同的题目以三种模态呈现，只在模型 OCR 完全读对的子集上比较答案一致性，从而把「识别」从「推理」里剥离出来，直指 MLLM 共享空间是否真的支持模态无关的推理。

方法详解¶

这是一篇 benchmark / 实证分析论文，没有提出新模型或新训练方法，"方法"就是 benchmark 的构造方式、一致性度量指标、以及四组受控分析实验的设计。整体逻辑是：先用 OCR 任务把「读不出字」的样本筛掉，再在「读对字」的干净子集上用三个自定义指标量化跨模态不一致，最后把这种行为层面的不一致和模型内部表征的相似度对上号。因为是纯评测/分析、流程不是多模块串行 pipeline，不画框架图。

整体框架¶

benchmark 的一个样本 = 同一道题的三种「渲染等价」形态：Text（纯文本提问）、Image（整道题渲染成图）、Mixed（上下文是图、问题是文本；选择题则题干为图、选项为文本）。每个样本先跑一个 OCR 任务（让模型把图里的文字转写出来）验证可读性，再用 Chain-of-Thought 提示分别在三种模态上作答（temperature=0、正则解析答案、格式非法记为错）。所有一致性分析都只在 OCR 完全正确的样本上进行，这是把识别和推理解耦的关键闸门。

数据由四个任务组成：复用三个成熟 benchmark（MMLU、AI2-ARC、GSM-Symbolic）并把文本渲染成图，外加作者新造的 SoEBench（解线性方程组）。为压低 OCR 难度，过滤掉 >800 字符和含 LaTeX 的题，图像用白底、DPI 200、黑色 DejaVu Sans 字体。REST+ 是加难版：对每张图做 10 种视觉扰动（3 字体 × 3 分辨率 = 9 种 + 1 种彩色），保持语义不变，专门用来测视觉特征和视觉 token 数量对一致性的影响。

关键设计¶

1. REST/REST+ 三模态「渲染等价」样本 + SoEBench：把识别从推理里剥离

benchmark 的核心创新是「同一内容、三种渲染、严格可控」。三种模态（Text / Image / Mixed）承载完全相同的语义，理想中一个真正模态无关的模型应该给出三个相同答案，所以任何答案分歧都直接归因于模态本身而非内容差异。为了不让 OCR 失败污染结论，作者一方面在数据层面压低识别难度（限字数、去 LaTeX、高分辨率印刷体），另一方面在分析层面只保留「OCR 完全读对」的样本。

其中 SoEBench（system-of-equations benchmark）是专门为对抗两个 confound 而造的：它只用数字 0–9 和字母 A–E 这种极简符号集，OCR 几乎不可能读错；而且是新生成的，保证任何现有 MLLM 在预训练阶段都没见过它，从而排除「文本模态强只是因为文本题被背过了（数据污染）」这一解释。每道题有唯一整数解，要求基础代数推理。这一设计让「文本模态更强」这个观察能更可信地归因于推理机制差异而非记忆或识别。

2. 三个一致性/能力指标（RER / CFR / MMC）：从不同角度量化「同内容不同答案」

作者用三个指标刻画不一致。Render-Equivalence Rate（RER） 度量三种模态答案完全一致的题目占比：

\[\text{RER}=\frac{|\{x \mid f(x_t)=f(x_i,z_i)=f(x_m,z_m)\}|}{N}\]

其中 \(f\) 是模型、\(N\) 是样本量，\(x/z\) 分别是文本/图像输入，RER=1 表示完美一致（注意它只看「答案是否相同」，不看对错）。

Cross-Modality Failure Rate（CFR） 度量「能在至少一种模态答对、却没法在全部模态都答对」的题占比：

\[\text{CFR}=\frac{|\{q \mid 1\le \sum_{m\in M} C(q,m) < |M|\}|}{N_c}\]

\(C(q,m)\in\{0,1\}\) 是题 \(q\) 在模态 \(m\) 上的对错，\(M=\{\text{text, image, mixed}\}\)，\(N_c\) 是「至少一种模态答对」的题数。它故意排除三种模态全错的题（那是能力不足而非不一致），CFR=0 才是完美一致。CFR 揭示的是「答对与否取决于你用什么格式问」这种最令人担忧的模式。

Max Modal Coverage（MMC） 度量「至少一种模态能答对」的题占比，代表如果每题都用最优模态去问、模型潜在能达到的上限。MMC 与「三模态全对率」之间的差，就是被跨模态不一致白白浪费掉的可解题目——例如 Phi-4 的 MMC 高达 85.9%，但只有 36.7% 的题三模态都能答对，意味着 ~49% 的题如果没用对模态就会答错。

OCR 质量本身用 Character Error Rate（CER） 度量（字符增删改 / 参考长度），只在 CER 对应「完全读对」时纳入一致性统计。

3. OCR-first 反事实 + 视觉扰动（REST+）：排除替代解释、定位真正的影响因素

为了证明不一致不是 OCR 的锅，作者做了一组反事实：让模型先把图里文字转写出来、再解题（"OCR first, then solve"，对应 Chen et al. 的做法）。如果不一致纯由识别引起，这招应该普遍涨点；但结果是有的模型涨、有的模型反而大幅掉点（如 DeepSeek-Small 在 MMLU 上 −13.1），证明「先 OCR 再解」并不能稳定修复不一致，OCR 不是主因。

REST+ 则系统拆解视觉特征的影响：分辨率（DPI 50/100/200）、字体（DejaVu Sans / Courier New / Cursive）、颜色（红绿蓝等）。结论很反直觉——字体几乎无影响（多数模型 <2% 差异）；分辨率有影响（高 DPI 更一致，且 DPI@50 下掉点往往是 OCR 跟着变差，再次说明要控 OCR）；彩色文字反而普遍涨点（红/黄字相对黑字多个模型 >5% 相对提升）。此外通过对比文本 token 数 vs 视觉 token 数发现：除 Qwen2.5-VL-32B 外，几乎所有模型都需要更多视觉 token 才能达到文本同等准确率，即"render text-as-image 省 token"在当前模型上多半以推理质量为代价。

4. 表征相似度↔行为不一致的机制关联（RQ4）：给现象找内部解释

作者把「行为层面的不一致」和「表征层面的模态鸿沟」对上号。借用 Shukor & Cord 的隐式对齐分数，对每个样本取图像 token 均值 \(\bar{\mathbf i}=\frac1A\sum_k \mathbf i_k\) 和文本 token 均值 \(\bar{\mathbf t}=\frac1B\sum_k \mathbf t_k\)，算余弦相似度 \(\mathrm{sim}(\mathbf I,\mathbf T)=\frac{\bar{\mathbf i}\cdot\bar{\mathbf t}}{\|\bar{\mathbf i}\|\|\bar{\mathbf t}\|}\)；并进一步用双向检索准确率（每个图像样本能否在文本侧检索回它配对的那条，取各层最大值）刻画对齐质量。在 ImageNet（自然图 + 文字标签 + "写下来的标签图"）1000 样本上做实验，发现这个相似度/检索分数与 RER 显著正相关——一致性高的模型，其匹配样本的图文表征也更接近。这给"同内容不同答案"提供了一个机制性解释：不一致源于文本和图像表征落在了共享空间的不同区域，方向不对齐，推理自然分叉。

损失函数 / 训练策略¶

本文不训练模型、无损失函数。评测协议：四种输入提示（OCR + text + mixed + image），后三者用 CoT，输出上限 1024 token（SoEBench 放宽到 2048），temperature=0，正则解析答案、格式非法即判错；一致性统计只在 OCR 完全正确子集上进行。

实验关键数据¶

主实验¶

评测 15 个前沿 MLLM。REST 上的一致性（RER 越高越好、CFR 越低越好，下表为四个 benchmark 平均、OCR✓ 子集）：

模型	RER↑ (OCR✓)	CFR↓ (OCR✓)	OCR✓率
GPT-5-mini	90.7	8.7	99.0
Haiku-4.5 (Claude)	90.3	8.9	98.2
Qwen-2.5 (32B)	84.7	13.6	97.5
InternVL3 (14B)	78.4	19.6	95.3
GPT-4o-mini	71.3	26.0	98.8
Gemini-2.5 Fl. Lite	54.3	40.3	98.3
Phi-4	14.9	82.3	94.0
Deepseek-Tiny	6.6	98.0	70.3

RER 跨模型从 6.6% 到 90.7%——没有一个模型做到模态无关一致。闭源的 GPT-5-mini / Claude Haiku 4.5 领先，开源里 Qwen-2.5-32B 最强。即便最强的 GPT-5-mini，仍有 8.7% 的题「能在某模态答对、却答不全」。关键是：只看 OCR✓ 子集时 RER 普遍持平或略升，且模型排名不变，说明剔除识别错误后不一致依然存在——OCR 不是主因。

各模态准确率（OCR✓ 子集，MMLU/ARC/GSM-Sym）显示几乎所有模型在文本模态最强：t 检验 text>image（\(t=17.7,\,p<0.05\)）、image\(t=-7.2\)）。例如 GPT-4o-mini 在 MMLU 文本比图像高 >7%。

SoEBench（全新、OCR 近乎完美）进一步坐实「文本模态本质更强」：

模型	RER↑	Text↑	Mixed↑	Image↑	OCR↑
Haiku-4.5	92.0	96.7	95.3	97.3	100.0
GPT-5-mini	91.9	98.7	95.3	97.3	99.3
Qwen-2.5 (32B)	69.1	87.2	87.9	75.2	99.3
Phi-4	1.3	13.3	13.3	17.3	100.0
Deepseek-Tiny	0.0	0.7	0.0	0.0	0.0

OCR 几乎满分（除 DeepSeek-Tiny 直接复读输入示例），但 Text 依然普遍领先，证明不一致既非 OCR 也非数据污染所致。

消融实验¶

配置 / 分析	关键指标	说明
OCR-first（先转写再解题）	ΔAcc 不稳定	DeepSeek-Small MMLU −13.1、ARC −12.8；GPT-5-mini 全线 +1 左右——有的涨有的崩，OCR 不是 confound
REST+（视觉扰动加难版）	最佳 CFR 仍 27.9%	InternVL3-14B 一致性最高；字体/颜色/分辨率任一变化都能左右答案对错
DPI 50→100→200	RER 随 DPI 升而升	GPT-5-mini 71.5→82.7→83.6；低 DPI 掉点常伴 OCR 同步变差（Claude/Gemma）
字体（Sans/Courier/Cursive）	<2% 差异	反直觉：草书并不更难，字体几乎无影响（仅 Phi-3.5 差 5.3%）
彩色 vs 黑字	多模型 >5% 相对提升	反直觉：红/黄字反而更好（DeepSeek-Small、Qwen-32B 明显）
表征余弦相似度 vs RER	显著正相关（\(R^2\) 拟合）	一致性高的模型，匹配样本图文表征更接近——机制层面解释

关键发现¶

没有任何 MLLM 跨模态一致，不一致率从 ~10% 到 >80%；这意味着大量「本可解」的题因为换了个输入格式就答错了（Phi-4 上 ~49% 的题如此）。
文本模态系统性更强，且这不是 OCR 或数据污染造成的（SoEBench 全新题上依然如此）——直接给「文本渲染成图省 token」的路线泼了冷水。
视觉特征的影响很反直觉：字体无所谓、彩色文字反而更好、分辨率有影响（但部分通过 OCR 起作用）。说明评测跨模态不一致时必须控制 OCR，否则会把识别能力误算进推理一致性（Claude 在 DPI@50 若不控 OCR 会显得更差）。
现象有内部对应：跨模态表征相似度（模态鸿沟）与 RER 正相关，把行为不一致和共享空间的几何错位连了起来。

亮点与洞察¶

「只在 OCR✓ 子集上比较」是这篇的灵魂：用一个简单的前置 OCR 闸门，干净地把「读不出字」和「读对却答错」分开，让结论第一次能可信地归因于推理而非识别——这套解耦协议可直接迁移到任何「文本 vs 渲染图」的评测里。
SoEBench 的双重防污染设计很聪明：极简符号集压低 OCR 难度 + 全新生成杜绝记忆，一次性挡掉「OCR 没做好」和「文本题被背过」两个最常见的 reviewer 质疑。
给热门的 render-text-as-image（DeepSeek-OCR）省 token 路线做了一次冷静的体检：发现除 Qwen2.5-VL-32B 外，模型都要更多视觉 token 才能追平文本准确率——"能读出字 ≠ 能一样地推理"，对做长上下文压缩的人是重要警示。
彩色文字反而更好、字体无影响这种反直觉发现，提示视觉 token 化过程里存在尚未被理解的偏置，是值得后续挖的口子。
RER↔表征相似度的相关性把一个行为现象和模态鸿沟的几何解释挂钩，并明确指出未来可做的因果实验（主动拉近表征相似度，看 RER 是否上升）。

局限性 / 可改进方向¶

只是相关、不是因果：RQ4 仅证明表征相似度与 RER 相关，作者自己也承认未验证因果——拉近表征是否真能提升一致性还是 open question。
任务偏窄：REST 主要是渲染印刷体文字的 QA（MMLU/ARC/GSM/方程组），虽用 ImageNet 自然图 + 棋局补充验证「不一致超出排版文字」，但对真实复杂自然图像（含深度、布局，无精确文本对应物）上的不一致刻画仍有限。
闭源模型分析受限：拿不到闭源模型 token 数和隐藏激活，token 效率分析和 RQ4 表征分析只能在开源模型上做。
指标只看"答案是否相同"：RER 把「三个都错但一致」也算一致，需配合 CFR/MMC 一起读才不被误导；单看 RER 可能高估弱模型的"稳定性"。
未给出修复方案：本文止于诊断，没有提出降低不一致的训练/对齐方法，留给后续工作。

评分¶

新颖性: ⭐⭐⭐⭐ 问题切口新（render-equivalence + OCR 解耦），但 benchmark 本身复用了大量已有数据集，方法不算原创性极高
实验充分度: ⭐⭐⭐⭐⭐ 15 个模型、4 个 RQ、含 OCR-first 反事实/视觉扰动/表征分析，覆盖全面且控变量严谨
写作质量: ⭐⭐⭐⭐ RQ 驱动、逻辑清晰、指标定义完整；个别表格信息密集需对照读
价值: ⭐⭐⭐⭐⭐ 直接质疑「render text-as-image 省 token」这一热门路线，并提供可复用的解耦评测协议，对做多模态压缩/对齐的人很有警示价值