ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=gu3DRaDWiI
论文: https://roverbench.github.io
代码: 未在缓存中确认
领域: 多模态VLM / 跨模态推理评测 / 全模态生成
关键词: 跨模态推理、统一多模态模型、图像生成评测、视觉中间推理、VLM-as-Judge

一句话总结¶

ROVER 提出一个面向统一多模态模型的 reciprocal cross-modal reasoning benchmark，用 1,312 个任务和 1,876 张图像同时考察“语言推理能否约束图像生成”与“视觉中间结果能否帮助文字推理”，并发现当前模型在具象物理视觉推理上有收益、在抽象符号视觉化上仍明显失灵。

研究背景与动机¶

领域现状：统一多模态模型（Unified Multimodal Models, UMMs）正在把图像理解、文本理解、文本生成和图像生成放进同一个模型接口里。理想状态下，这类模型不只是“能看图、能说话、能画图”，而是可以在不同模态之间来回切换：用文字推理规划图像变化，用图像中间态帮助回答问题，再把两者对齐成一个可验证的推理过程。

现有痛点：已有评测大多把能力拆开看。VQA 或多模态理解 benchmark 主要看模型能不能从图像得到文字答案；图像生成和图像编辑 benchmark 主要看输出图片是否符合指令、是否保留原图结构。这样会漏掉一个关键问题：当任务本身需要“推理过程”和“生成结果”彼此支持时，模型到底是在跨模态推理，还是只是把一个单模态能力套在另一个任务外面。

核心矛盾：统一模型的卖点是理解与生成共享内部表征，但评测却常常只验证单向能力。文字指标看不到图像是否真的体现了推理链，图像指标也无法判断模型是否按正确的因果、空间、时间或数学逻辑生成了结果。尤其在全模态生成场景里，一个看似漂亮的图像可能推理完全错误，一个看似流畅的文字答案也可能没有真正利用生成的视觉中间结果。

本文目标：作者想把评测对象从“单模态输出质量”推进到“跨模态互相验证的推理质量”。具体说，ROVER 要回答两个问题：第一，给定图像和复杂文字约束，模型能否先做语言推理，再把推理落实到正确图像里；第二，面对需要解题的问题，模型能否生成有用的视觉中间表示，并让这些中间表示真正提高最终文字答案。

切入角度：论文把这种能力定义为 reciprocal cross-modal reasoning，即一种模态用于指导、验证或修正另一种模态的输出。这个角度比“理解”和“生成”更贴近 UMM 的核心承诺，因为它要求模型内部的文本链路与视觉链路不是并列共存，而是可以互相提供证据。

核心 idea：ROVER 用一套人工标注、可验证的双向任务体系，把“语言辅助图像生成”和“视觉辅助文字生成”放在同一 benchmark 下，并用过程、结果、对齐三类指标判断统一多模态模型是否真的具备跨模态推理能力。

方法详解¶

整体框架¶

ROVER 本质上不是一个新模型，而是一套面向全模态生成的评测基准。它把 reciprocal cross-modal reasoning 拆成两个互补方向：ROVER-IG 评测 verbally-augmented reasoning for visual generation，要求模型用语言推理链指导图像生成；ROVER-TG 评测 visually-augmented reasoning for verbal generation，要求模型生成视觉中间过程来辅助最终文字答案。

整个 benchmark 的设计逻辑是先定义任务分类，再构建带有参考信息和验证目标的实例，最后用自动 VLM judge 加专家校准的方式同时评价过程和输出。这样做的重点不是简单增加题量，而是让每道题都能追问“模型为什么这样生成/回答”以及“这个理由和最终产物是否一致”。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["统一多模态模型<br/>理解 + 生成"] --> B["ROVER-IG<br/>语言推理约束图像生成"]
    A --> C["ROVER-TG<br/>视觉中间态辅助文字推理"]
    B --> D["过程、视觉结果、对齐<br/>一致性与图像质量"]
    C --> E["视觉推理质量、答案准确率<br/>推理-答案对齐"]
    D --> F["17 个模型评测<br/>暴露跨模态推理缺口"]
    E --> F

ROVER-IG 包含 908 个视觉生成任务，涉及 1,009 张图像。每个任务通常给定输入图像、文字指令、目标描述、领域关键词，有些任务还提供目标参考图像。它覆盖自然科学、文化艺术、常识、逻辑数学 4 个领域，并拆出时间、空间、因果、想象、数量、谜题、几何等 7 类推理子任务。

ROVER-TG 包含 404 个文字生成任务，面向需要视觉中间步骤的问题求解。它覆盖物理世界建模、逻辑与数学、视觉感知 3 个场景和 6 类子任务，例如机器人操作轨迹、物理状态变化、几何辅助线、拼图、多视角理解等。这里的“生成图像”不是装饰，而是被设计成推理过程的一部分。

关键设计¶

1. 双向评测：把跨模态推理拆成互为镜像的两类任务

ROVER 最重要的设计是把“文字指导图像”和“图像辅助文字”同时纳入评测。ROVER-IG 关注从语言推理到视觉生成的方向：模型需要理解输入图像和文字约束，例如“一个物体经过 3 秒会怎样”“从红色地图针位置生成真实景观”“按几何约束标注答案”，然后生成能体现推理结论的图像。这里模型不能只做风格化编辑，因为正确性来自时间、空间、因果、数量或几何关系。

ROVER-TG 反过来考察从视觉生成到文字答案的方向。模型在回答前要生成中间视觉表示，例如机器人手臂的轨迹、物理过程的中间帧、几何题的辅助图、拼图补全图或多视角合成图。这个设置很关键：如果生成的视觉中间态只是好看但不支持解题，最终答案不会变好；如果视觉中间态错误，它甚至会把文字推理带偏。

2. 可验证实例设计：让每道题同时绑定输入、过程目标和输出目标

普通图像生成评测常常只问“图片像不像提示词”，但 ROVER 需要评估的是推理是否成立。因此 ROVER-IG 的每个实例不只保留 prompt，还包含 target description、domain-specific keywords，以及可选 reference image。target description 告诉评测器正确结果应该出现哪些视觉变化，keywords 约束推理应使用哪些领域概念，例如氧化、扩散、透视、数量变化或几何关系。

ROVER-TG 的实例结构也强调“视觉中间态必须有用”。数据来自机器人、物理仿真、逻辑题、感知题等来源，样本包括上下文图像、渐进式推理步骤和已验证答案。附录还说明，逻辑任务收集了超过 1,000 个带 ground-truth visual CoT 的候选，并用 GPT-5 做 sanity check，筛出视觉 CoT 会显著影响预测的案例；物理和视觉感知任务则使用机器人视频、仿真 rollout 或拼图目标图作为视觉证据。

3. 多维评测协议：分别看推理过程、结果质量和跨模态对齐

ROVER 的评测没有把所有东西压成一个“是否正确”。ROVER-IG 使用 5 个维度：Reasoning Process（RP）评价文字推理的逻辑结构、领域知识和完整性；Reasoning Visual（RV）评价最终图像是否体现目标描述和正确推理原则；Reasoning Alignment（Align.）评价文字推理和图像结果是否一致；Visual Consistency（VC）检查非目标元素是否被不必要地改变；Image Quality（IQ）评价图像技术质量和视觉连贯性。

ROVER-TG 使用 3 个维度：Interleaved Reasoning Quality（IR）评价中间视觉表示是否物理/逻辑正确、是否对任务有帮助；Final Answer Accuracy（Acc.）评价最终答案是否匹配 ground truth；Reasoning-Answer Alignment（Align.）评价生成图像是否真正推动了正确答案。这组指标把“生成了图像”和“图像有助于推理”分开，能识别出视觉中间过程看起来合理但实际误导答案的情况。

这些分数由 GPT-4.1 作为 VLM judge 自动打分，并用 1 到 5 分归一到 0 到 100。作者还给 judge 提供 rubric cards、reference assets 和任务特定说明，并在 8 名专家、10 个 UMM、1,000 个实例上做一致性验证。附录报告显示，GPT-4.1 与专家在 ROVER-IG 的 RV、VC、IQ 等维度有较强相关性，在推理相关维度上误差更大但仍处可接受范围；ROVER-TG 的 IR 和 Align. 也显示出较高可靠性。

4. 对照分析：区分内部跨模态推理和外部级联提示优化

论文没有只停留在排行榜，还专门比较了统一模型、图像编辑模型、语言模型和级联系统。一个关键对照是 BAGEL / BAGEL-Think 与 FLUX / FLUX+GPT：外部 GPT-4o 可以改写提示词，让图像编辑任务在某些指标上变好，但在 ROVER 这种需要内部跨模态推理的任务上，级联提示优化无法替代统一模型内部的视觉-语言协同。

这个设计帮助论文排除一个常见解释：也许只要把文字推理写得更好，再喂给强图像模型就够了。ROVER 的结果显示并非如此。跨模态推理需要模型在生成过程中把语言约束、视觉输入和视觉输出放在同一个闭环里，而不是先由一个语言模型生成一段解释，再让另一个图像模型机械执行。

一个完整示例¶

以 ROVER-IG 的时间/因果任务为例，输入可能是一束新鲜郁金香，指令要求“展示一周疏于照料后的状态”。正确模型需要先在文字推理中说明水分减少、花茎失去支撑、叶片和花瓣变黄或下垂，再把这些变化落实到图像里：花朵不应只是换个滤镜，而应出现下垂、卷曲、颜色变暗等符合生物过程的视觉证据。

再看 ROVER-TG 的几何题。模型可能需要先生成带辅助线的几何图，再根据相似三角形或圆周角关系给出数值答案。如果视觉中间图没有画出关键高度或辅助线，文字答案就很容易变成凭空猜测。论文中的失败案例显示，当前模型在物理和感知任务里还能通过“直接画出变化”获得帮助，但在几何、谜题这类符号任务里，经常无法把抽象关系正确视觉化。

实验关键数据¶

主实验¶

论文评测了 17 个统一多模态模型和相关基线，包括闭源模型 Nano Banana、Gemini 2.0 Flash、GPT-5，开源统一模型 BAGEL-Think、BAGEL、UniCoT、BLIP3o-NEXT、Ovis-U1、OmniGen2 等，以及 Qwen-Image-Edit、FLUX.1 Kontext、UltraEdit、VAREdit、Step1X-Edit 等图像编辑模型。

ROVER-IG 的主结果表明，闭源统一模型在推理过程、对齐和视觉结果上明显领先。Nano Banana 的 Overall RP / Align. / RV 分别达到 67.0 / 82.3 / 73.2，Gemini 2.0 Flash 为 64.8 / 78.6 / 62.3，GPT-5 为 64.2 / 76.4 / 63.7。相比之下，BAGEL-Think 的 Overall RP / Align. / RV 为 54.3 / 64.4 / 52.7，普通 BAGEL 只报告 RV 40.5。

设置	代表模型	Overall RP	Overall Align.	Overall RV / Acc.	主要含义
ROVER-IG 闭源统一模型	Nano Banana	67.0	82.3	73.2 RV	推理链、图像结果和对齐都最强
ROVER-IG 闭源统一模型	GPT-5	64.2	76.4	63.7 RV	文字推理强，但逻辑数学图像生成仍弱
ROVER-IG 开源统一模型	BAGEL-Think	54.3	64.4	52.7 RV	think 机制有帮助，但与闭源模型差距明显
ROVER-IG 开源统一模型	BAGEL	-	-	40.5 RV	没有显式推理时视觉结果明显下降
ROVER-TG 闭源统一模型	Nano Banana	38.8 IR	60.0 Align.	43.6 Acc.	视觉中间推理质量最高但绝对值仍低
ROVER-TG 闭源统一模型	GPT-5	36.2 IR	60.9 Align.	43.4 Acc.	视觉辅助带来很小提升
ROVER-TG 开源统一模型	BAGEL-Think	21.4 IR	38.6 Align.	28.4 Acc.	中间视觉表示质量限制最终答案

ROVER-TG 的结果更尖锐。即便最好的 Nano Banana，整体 IR 也只有 38.8，Acc. 为 43.6；GPT-5 的整体 IR 为 36.2，Acc. 为 43.4。与纯文字推理相比，视觉增强在世界模型和视觉感知上通常有小幅帮助，但在逻辑数学上提升很不稳定，有时几乎没有收益。

图像编辑模型在 ROVER-IG 上也明显落后于统一模型。以 Overall RV 为例，Nano Banana、GPT-5、Gemini 2.0 Flash 分别达到 79.6、74.9、72.1（表 4 的视觉质量汇总口径），而 Qwen-Image-Edit、FLUX.1 Kontext、UltraEdit、VAREdit、Step1X-Edit v1.1 分别为 47.1、40.9、34.6、37.5、42.1。这说明 ROVER 测到的不是普通编辑保真度，而是推理驱动的视觉生成能力。

消融实验¶

论文没有传统训练消融，因为 ROVER 是 benchmark；更接近消融的是对推理模式、模型类型和视觉中间物的控制分析。BAGEL 与 BAGEL-Think 的比较显示，显式思考机制能显著改善 ROVER 上的表现，其中视觉一致性提升约 11.9%。但 FLUX+GPT 这种外部级联在 EditWorld 上可以带来小幅 CLIP-T 改善，却会降低 ROVER 上的视觉一致性和图像质量，说明“先让语言模型优化提示词”不是跨模态推理的充分替代。

分析项	对照设置	观察结果	解释
显式思考机制	BAGEL vs BAGEL-Think	think 版本在 ROVER 上更强，VC 提升约 11.9%	内部推理与生成耦合能改善推理依赖图像生成
外部级联推理	FLUX vs FLUX+GPT	EditWorld 有小幅收益，ROVER 的 VC/IQ 反而下降	文字提示优化无法替代模型内部跨模态闭环
视觉中间物是否有用	VLM w/o vs w/ UMM visual rationale	世界模型 +3.5%，视觉感知 +3.8%，逻辑推理 -1.4%	视觉中间物质量决定其是证据还是噪声
推理类型相关性	时间、空间、因果、数量、几何、谜题	物理类推理相关性强，抽象推理与物理推理相关弱	具象视觉变化和符号视觉化可能依赖不同能力

关键发现¶

ROVER-IG 中，跨模态推理质量和最终图像质量高度相关。闭源模型的推理过程约比开源模型高 38%，对齐表现约高 31%，这些差距会传导到约 39% 的视觉生成表现差距。
支持交错图文生成的模型明显优于只能单轮或单模态输出的模型。论文报告开源模型中具备 interleaved generation 能力的模型在 RV 上比非交错模型高约 38.1%。
ROVER-TG 暴露了“坏的视觉推理不如不用视觉推理”。当中间图像能表达物理状态或感知补全时，答案会变好；当任务需要把符号逻辑转成图形结构时，错误图像会误导最终答案。
模型在时间、空间、因果这类具象推理上相对更稳定，在抽象和数学推理上更弱。附录的相关性分析显示，物理类推理之间相关性高，而抽象推理与物理推理相关性较弱，说明后者不是简单扩大视觉生成能力就能自然获得。

亮点与洞察¶

ROVER 的价值在于把“生成质量”拆成了可解释的跨模态链条。它不是只问图片好不好看，而是追问文字推理是否正确、图像是否体现推理、二者是否互相一致，这对评价统一模型比单一美学或 VQA 分数更有诊断力。
论文抓住了 UMM 评测里的一个盲点：理解和生成如果只是共存，模型未必具备 reciprocal reasoning。ROVER 用双向任务证明，真正困难的是让一种模态成为另一种模态的证据，而不是简单拼接两个强模块。
ROVER-TG 的结论尤其值得注意：视觉中间过程不是天然有益。对物理世界和视觉感知，画图能提供额外证据；对几何、谜题、数学抽象，如果模型不会构造正确符号图，视觉 CoT 可能变成高置信度噪声。
对后续模型训练而言，这篇论文提示了一个明确方向：只提升图像美观度或文字 CoT 流畅度不够，训练数据和奖励信号需要显式约束“推理过程—视觉中间态—最终输出”之间的一致性。

局限与展望¶

ROVER 依赖 GPT-4.1 作为自动 judge，虽然有专家一致性验证，但复杂推理维度仍可能受到 VLM judge 幻觉、偏好和 rubric 解释差异的影响。特别是 RP、IR 这类过程性指标，自动评测很难完全等价于人类专家审查。
benchmark 规模为 1,312 个任务，质量和验证深度较高，但对训练或大规模统计分析而言仍不算大。不同文化、不同领域知识、长程多步交互、视频和音频模态还没有被充分覆盖。
ROVER 主要围绕文本和图像两种模态讨论“omnimodal generation”，音频、视频、3D、动作控制等更广义模态尚未进入核心评测闭环。未来如果要真正评测全模态智能，需要把 reciprocal reasoning 扩展到更多输出形式。
当前评测更多揭示能力缺口，而不是直接给出训练方案。后续可以基于 ROVER 构建偏好数据、过程监督数据或强化学习奖励，让模型学习何时生成视觉中间物、如何验证中间物、何时放弃错误视觉假设。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把 reciprocal cross-modal reasoning 系统化成双向 benchmark，问题定义清楚且切中统一多模态模型的核心盲点。
实验充分度: ⭐⭐⭐⭐ 覆盖 17 个模型、23 类任务和多组对照分析，自动 judge 也做了专家校准；不足是任务规模和模态覆盖仍有限。
写作质量: ⭐⭐⭐⭐ 论文结构清晰，图例和表格能支撑主要结论；但附录评测 prompt 较长，部分结果口径需要读者在不同表之间来回对照。
价值: ⭐⭐⭐⭐⭐ 对 UMM、图文交错推理、视觉 CoT 和推理驱动生成都有直接参考价值，尤其适合作为后续训练和评测闭环的诊断基准。