Grounded Chain-of-Thought for Multimodal Large Language Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/DoubtedSteam/MM-GCoT
领域: 多模态VLM / 视觉幻觉 / 评测基准
关键词: 多模态大模型, 视觉幻觉, 接地推理, 链式思考, 评测基准

一句话总结¶

提出"接地链式思考（GCoT）"新任务和 MM-GCoT 基准：让多模态大模型在回答前逐步说出推理并给出每一步的坐标依据，再用"答案-接地一致性"指标量化视觉幻觉，结果发现 12 个先进 MLLM 普遍"答对但看错"，且幻觉与模型规模无关。

研究背景与动机¶

领域现状：多模态大模型（MLLM）在各类视觉-语言基准上逼近人类水平，但在视觉-空间推理上仍弱，且存在"视觉幻觉"——生成的描述/推理并不真正基于图像内容。

现有痛点：有一类更隐蔽的幻觉是模型答案对、但依据错：它靠数据分布偏置（语言偏置）蒙对答案，注意力却落在与问题无关的区域。现有幻觉基准只能判断"答案是否正确"，无法揭示模型在多模态推理中到底有没有用对视觉证据；而现有的接地问答（Grounded QA）虽然给了接地框，却缺少标注的中间推理步骤，看不到"每一步看哪里"。

核心矛盾：评测体系只看终点（答案对不对），就会把"靠偏置蒙对"的不可靠模型误判为可靠，给具身 AI 等物理世界应用埋下风险。要量化幻觉，必须把"答案"和"它声称的视觉依据"对齐起来检查。

本文目标：(1) 设计一个能同时考查视觉感知、空间接地、并诊断幻觉的任务；(2) 构造配套基准让现有 MLLM 可被客观评测；(3) 用实验揭示当前 MLLM 在视觉推理一致性上的真实状况。

切入角度：借鉴 LLM 的链式思考（CoT），但把每一步推理都"接地"——要求模型把问题拆成若干步、每步给出相关实体的边界框坐标作为直观依据，最后才给答案。

核心 idea：用"逐步接地的推理链 + 答案-接地一致性指标"把视觉幻觉从"看不见"变成"可量化"。

方法详解¶

整体框架¶

本文不是训练一个新模型，而是定义任务 + 造基准 + 设评测体系三件事。给定一张图和一个问题，GCoT 要求 MLLM 先分解任务、逐步推理并给出每个任务相关元素的空间坐标，最后基于这些步骤给出答案和最终答案区域的坐标。配套的 MM-GCoT 基准用四阶段管线从 Visual Genome 造出 1200 个含多步接地标注的样本（分 Attribute / Judgement / Object 三类）；评测体系给出答案准确率、接地准确率、答案-接地一致性三个指标，并设计三种 prompt 设置去"逼出"模型的接地能力。

关键设计¶

1. GCoT 任务形式化：把"答案"和"逐步视觉依据"绑在一起

痛点是传统 VQA 只给一个映射 \(F:I,T\to A\)，无从知道答案是否基于所见。GCoT 把它改写成一个多步决策过程：

\[P(A|I,T)=\prod_{t=1}^{T}P(R_t,G_t|I,T,G_{<t},R_{<t})\]

其中 \(I,T\) 是输入图像与文本，\(A\) 是最终答案，\(R_t\)、\(G_t\) 分别是第 \(t\) 步的文本思考和对应空间坐标。模型必须在每一步显式给出"我现在看的是哪个实体、它在图里哪个框"，从而把隐藏的推理过程暴露出来。这一形式与只关注知识推理的视觉 CoT（如 LLaVA-CoT）不同——GCoT 的思考是关于视觉-空间感知的、且每步都有坐标可核验；它也比 Grounded QA 多了"中间推理步骤"。作者还指出该形式天然适配 GRPO 等 RL 方案，可在无 GCoT 标注的数据上训练。

2. MM-GCoT 基准的四阶段构造：保证推理复杂度与接地精度

为了既有多步推理又有精确坐标，作者设计了四阶段管线。第一步，用 IoU 匹配把 Visual Genome 的区域描述与物体标注对齐（一个物体只有一个区域且 IoU 达阈值时配成对）；第二步，以匹配好的物体为节点、按空间与语义关系建"空间关系图"，从图上迭代采样关系路径生成多步推理链；第三步，用结构化模板汇集边界框坐标、物体属性与上下文关系；第四步，用 LLM 把模板翻译成流畅自然语言问题，最后人工校验。最终得到 1200 个样本，分三类：Attribute（问目标物体的类型/位置）、Judgement（判断描述对错）、Object（识别指定位置的物体类别）。这套"关系图采样"保证了推理链既真实可达又有明确接地真值。

3. 答案-接地一致性指标：把视觉幻觉变成一个可计算的数

痛点是只看答案准确率（A-Acc，文本匹配）和接地准确率（G-Acc，用 [email protected]，即 IoU>0.5）都无法刻画"答对但看错"。作者提出一致性指标：

\[\text{Con.}=\frac{|S_{ca,cb}|}{|S_{ca,cb}|+|S_{ca,wb}|+|S_{wa,cb}|}\]

其中 \(S_{ca,cb}\) 是"答案对且框对"、\(S_{ca,wb}\) 是"答案对但框错"、\(S_{wa,cb}\) 是"答案错但框对"。直观说：在所有"答案对或框对"的样本里，真正"既答对又看对"的占比有多高。一致性低就意味着模型大量地"答对了却没看对地方"或"看对了却答错"，即视觉幻觉严重。这个指标把幻觉从定性描述变成可横向比较的标量。

4. 三种 prompt 设置：从不同角度逼出并诊断接地行为

多数 MLLM 虽会做视觉接地，却很难同时输出"答案 + 接地"。作者设计三种 prompt 来激发并对比其接地问答能力：Answer-First（先答后给框）、Grounding-First（先给答案区域框再答）、Grounding-CoT（多轮对话里逐步给每一步实体的框、最后给答案）。三者难度递增：grounding-first 最易（只需定位最终答案），grounding-CoT 最难（要多步推理 + 全程逐实体接地）。同一模型在三种设置下三个指标的落差，本身就是诊断其推理可靠性的信号——例如一致性在 grounding-CoT 下若大幅下降，说明模型做不到"步步看对"。

实验关键数据¶

主实验¶

在 MM-GCoT 上评测 12 个代表性 MLLM（LLaVA、LLaVA-OneVision、Qwen2.5-VL、InternVL2.5）。下表为 Answer-First 设置下的三项均值指标（A-Acc=答案准确率，G-Acc=接地准确率 [email protected]，Consist.=答案-接地一致性，均为越高越好，单位 %）。

模型	A-Acc	G-Acc	Consist.
LLaVA-OneVision-72B	74.7	16.4	15.3
InternVL2.5-78B	64.0	42.9	36.6
Qwen2.5-VL-72B	73.2	39.7	38.8
Qwen2.5-VL-7B	71.1	63.5	56.3

最显眼的反差：LLaVA-OneVision-72B 答案准确率高达 74.7%，一致性却只有 15.3%——答对一大半，但绝大多数没看对地方。即便最大的 InternVL2.5-78B，一致性也只有 36.6%。一致性最高的反而是 7B 量级的 Qwen2.5-VL-7B（56.3%）。

消融实验¶

跨规模与跨 prompt 设置的对照（一致性 Consist.，%）：

对照	配置 A	配置 B	结论
模型规模（Qwen2.5-VL）	7B：56.3	72B：38.8	7B 反超 72B 达 17.5
模型规模（grounding-first）	7B	72B	7B 比 72B 高 40.6
prompt 设置（InternVL2.5-38B）	answer-first：39.2	grounding-CoT：17.8	切到 CoT 掉 21.4
推理步内一致性（Qwen2.5-VL-7B, Judgement）	Step1：92.8	Step2：7.2	直接给答案框的比例骤降

关键发现¶

答对 ≠ 看对：大多数 MLLM 一致性极低，说明普遍存在视觉幻觉——答案常靠语言偏置而非真正的视觉证据。
幻觉与规模无关：Qwen2.5-VL 从 3B 到 72B 答案准确率只涨约 4%，但 7B 的一致性反而比 72B 高 17.5%（grounding-first 下高 40.6%）；超大模型在 MM-GCoT 上反而更差，疑似数据过拟合。
接地能力与推理能力不挂钩：InternVL2.5-38B 比 8B 答案准确率高 5.5%，接地反而在 Object 上降 0.3%；强接地不帮答题、强推理不保接地。
多步推理不可靠：grounding accuracy 在各推理步间无明显趋势，模型并不依赖前面已给出的视觉证据；Grounding-CoT 一致性普遍低于 Answer-First，越要它步步接地越露馅。

亮点与洞察¶

把幻觉量化的钥匙是"一致性"而非"准确率"：只看答案对错会高估可靠性，一致性指标第一次让"答对但看错"可被测量和排名，这个评测视角可迁移到任何需要核验依据的多模态任务。
用关系图采样造多步接地链很聪明：从 Visual Genome 的物体关系图采样路径，天然得到"可达 + 有坐标真值"的多步推理链，避免了纯人工标注的高成本与随意性。
"规模不解决幻觉"是有力的反直觉结论：小模型一致性反超大模型，提示一致性是结构性/训练目标问题，单纯堆参数无效，对具身 AI 选型有直接警示。
三种 prompt 设置是诊断探针：同模型在三设置下的指标落差本身就编码了它"答题 vs 接地"的脱节程度，是一种无需训练的诊断手段。

局限与展望¶

只评测、未给解法：本文聚焦诊断，提出任务和基准却没给出系统性降低幻觉的训练方法（仅指出可用 GRPO 等 RL 在该形式上训练），改进留给后续。
接地真值来自 Visual Genome：基准依赖 VG 的区域/物体标注与 IoU 匹配，标注噪声和单区域约束可能限制覆盖的关系复杂度。
规模偏小：1200 个样本、三类任务，相对真实世界视觉-空间推理的多样性仍有限。
prompt 敏感：结果对三种 prompt 设置敏感，模型表现可能部分受指令格式影响而非纯能力差异。

评分¶

新颖性: ⭐⭐⭐⭐ GCoT 任务 + 一致性指标把"答对但看错"首次量化，视角新；但属诊断性工作、未给解法
实验充分度: ⭐⭐⭐⭐ 12 个 MLLM × 3 prompt 设置 × 3 子集，横向充分，含逐步与跨规模分析
写作质量: ⭐⭐⭐⭐ 任务定义与发现清晰，表格信息密集
价值: ⭐⭐⭐⭐ 为多模态可信度评测立了新标尺，对具身 AI 选型与后续抗幻觉研究有指导意义