MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning¶

会议: CVPR2025
arXiv: 2603.12266
代码: GitHub
领域: 多模态VLM
关键词: MLLM 基准, 组合推理, conditional chain, 困难负样本, programmatic verification

一句话总结¶

MM-CondChain 是首个针对视觉基础深层组合推理的 MLLM 基准，通过可验证程序中间表示（VPIR）自动构建多层条件链和链式硬负样本，最强模型仅获 53.33 Path F1，揭示深层组合推理是根本挑战。

研究背景与动机¶

核心矛盾¶

核心矛盾：领域现状：1. MLLM 越来越多地用于需要链式视觉验证的工作流（如 GUI 导航），但此能力缺乏系统评估 2. 现有视觉推理基准仅评估浅层单层组合（如"物体是否红色且大"）或独立约束 3. 指令遵循基准聚焦于独立约束而非层间嵌套条件推理 4. 现有硬负样本通常限于单层变化（替换一个属性），缺乏链式硬负样本 5. 大多数基准依赖 LLM-as-judge 评估，缺乏确定性和可复现性 6. 直接让 MLLM 生成多层推理链常产生逻辑冲突和不可验证的声明

方法详解¶

整体框架¶

VPIR-based Agentic Benchmark Construction Pipeline：(1) Planner 逐层编排推理链构建；(2) 每层通过 VPIR（可验证程序中间表示）确保条件的机械可验证性；(3) Verifier 两阶段质量控制；(4) Composer 编译为 True-path/False-path 配对评估实例。

关键设计¶

1. 逐层 VPIR 合成（4步） - Step 1：选择关系策略 \(r_t\)（Deepening 或 Transition），约束主体选择 - Step 2：从视觉输入提取结构化事实 \(F_t\)（JSON 键值映射），确保主体可唯一定位 - Step 3：生成可执行谓词对 \((p_t, \tilde{p}_t)\)，在沙箱环境中验证 \(\llbracket p_t \rrbracket(F_t) = 1\), \(\llbracket \tilde{p}_t \rrbracket(F_t) = 0\) - Step 4：将验证通过的逻辑渲染为自然语言条件 \((c_t, \tilde{c}_t)\)

2. 两阶段验证器 - Stage I：事实和主体验证（视觉可定位性、非重复性、关系合规性、模式一致性） - Stage II：语言实现验证（语义保真、无歧义引用、反事实质量） - 阶段感知反馈：Stage I 失败重新生成事实，Stage II 失败仅重新渲染语言

3. Planner：验证感知链控制 - 混合深度控制：硬规则 + MLLM 策略 - 动作空间：EXTEND / FINISH / ROLLBACK - 验证感知回溯：反复验证失败时触发 ROLLBACK

4. Composer：配对路径实例编译 - True-path：所有条件成立，到达终端层回答 \(q^{\text{fin}}\) - False-path：随机选择分歧层 \(j\)，替换 \(c_j \leftarrow \tilde{c}_j\)，提前终止回答 \(q_j^{\text{aux}}\) - 主体去泄漏：重写主体描述避免条件答案泄露 - 多选题确定性评估，无需 LLM-as-judge

三个视觉域¶

自然图像：SAM + GQA，398 张
数据图表：ChartQA，200 张（bar/line/pie + 结构化标注）
GUI 轨迹：AITZ，377 条轨迹（3,421 截图）

实验关键数据¶

整体性能（Path F1，%）¶

主实验¶

模型	Natural F1	Chart F1	GUI F1	Avg F1
Gemini-3-Pro	55.91	66.04	38.05	53.33
GPT-5-0807	47.51	65.44	38.06	50.34
Gemini-3-Flash	47.19	61.96	35.78	48.31
Qwen3-VL-235B-Thinking	49.31	59.96	31.23	46.83
Qwen3.5-397B-A17B	38.97	58.55	40.19	45.90
GPT-4o-1120	22.23	17.49	20.46	20.06

True vs. False Path 分析¶

GPT-4o 在 Natural 域 True-path 83.92% vs False-path 12.81%，严重不平衡
Qwen3.5-4B 在 Natural 域 True 88.92% vs False 15.37%
Gemini-2.5-Pro 在 False-path 表现较好（Natural 55.28%），但 True-path 仅 38.94%
小模型倾向于"全部通过"策略，导致 True 高 False 极

关键发现¶

最强模型 Gemini-3-Pro Avg F1 仅 53.33，深层组合推理极具挑战
True/False 路径严重不平衡，大多数模型对硬负样本的识别远低于正样本
Chart 域整体 F1 最高，GUI 轨迹域最难（需要跨多帧时序推理）
性能随推理深度和谓词复杂度增加而进一步下降
VPIR 表达式结构多样：128 种模板覆盖 80%，前 20 模板仅覆盖 50.07%
确定性评估（多选题 + 程序验证）消除了 LLM-as-judge 偏差

亮点与洞察¶

VPIR 创新：将逻辑构建与语言渲染解耦，用可执行代码保证数据质量而非依赖 LLM 生成
链式硬负样本：翻转单个谓词改变整个执行路径，迫使模型精确验证每个条件
三域通用性：统一框架适用于自然图像、图表和 GUI，域特定适配仅在输入预处理层
完全确定性评估：多选题 + 程序验证 GT，无 LLM-as-judge 偏差
揭示根本能力差距：证明 MLLM 在深层条件推理上的系统性弱点

局限与展望¶

数据规模有限（975 样本），可能不足以反映模型在更大分布上的表现
主体去泄漏依赖 MLLM 重写，可能引入不完美
事实提取依赖 MLLM 准确性，基准质量受限于提取模型能力
仅评估了文本输出，未考虑模型在交互执行中的表现
深度控制的硬编码规则可能限制链的自然性

评分¶

新颖性: ⭐⭐⭐⭐⭐ (VPIR + 链式硬负样本的 benchmark 构建范式)
实验充分度: ⭐⭐⭐⭐ (十个模型，三个域，多维分析)
写作质量: ⭐⭐⭐⭐⭐ (系统描述极其清晰)
价值: ⭐⭐⭐⭐⭐ (揭示 MLLM 核心能力差距，影响广泛)