Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought¶

会议: NeurIPS 2025
arXiv: 2505.15510
代码: 无
领域: LLM推理 / 多模态
关键词: 多模态CoT, 视觉思维, T-MCoT, I-MCoT, 视觉信息传递

一句话总结¶

提出"视觉思维(Visual Thoughts)"作为统一框架解释多模态链式推理(MCoT)的有效性——无论是文本MCoT还是交错图文MCoT，其性能提升的核心机制都是将视觉信息缓存并传递到推理过程中，定义了四种视觉思维表达形式并揭示其在Transformer深层中作为图像-推理中介的角色。

研究背景与动机¶

领域现状：大型视觉语言模型(LVLM)的多模态CoT(MCoT)分为两大范式：(1) T-MCoT(Textual MCoT)接受多模态输入，产生纯文本推理步骤；(2) I-MCoT(Interleaved MCoT)生成图文交错的推理输出。两种范式各有支持者——有人认为I-MCoT更接近人类认知，有人发现数学场景中T-MCoT更优。

现有痛点：两种范式的有效性缺乏统一解释。目前不清楚：(1) 不同MCoT范式为什么有效？(2) 哪种范式在什么场景下更好？(3) MCoT改善推理的底层机制是什么？没有一个统一框架能同时回答这些问题。

核心矛盾：T-MCoT和I-MCoT在不同任务上各有优劣，但缺乏理论框架来解释这种差异，也无法指导何时选择哪种范式。

本文目标 提供一个统一视角来理解不同MCoT范式如何增强LVLM的多模态推理。

切入角度：从计算机系统的缓存(cache)类比出发——原始图像类似外部存储（每次访问需重新处理），视觉思维类似缓存（蒸馏关键视觉信息供快速访问）。

核心 idea：MCoT的核心价值在于产生"视觉思维"——将与任务相关的视觉信息蒸馏并缓存到推理链中，减少对原始图像的依赖，使后续推理更高效更深入。

方法详解¶

整体框架¶

定义视觉思维为MCoT推理步骤中的一种特殊类型——它从视觉输入中提取信息并传递给后续推理步骤。然后系统性地探索四种视觉思维表达形式，通过控制实验验证其有效性，并利用注意力分析揭示内部机制。

关键设计¶

视觉思维的形式化定义与验证:
- 功能：定义视觉思维并通过消除实验验证其必要性
- 核心思路：设计三组对照实验——(1)原始I-MCoT（含视觉思维）；(2) 删除视觉思维缓存，迫使模型重新分析原始图像(w/o VT)；(3) 将图像形式的视觉思维替换为文本描述(text-form VT)。结果：删除VT导致性能下降（甚至比直接从query推理更差）；恢复VT一致性提升推理
- 设计动机：排除"MCoT只是增加了推理步数"的假设——VT缓存的视觉信息才是核心
四种视觉思维表达形式的系统探索:
- 功能：定义并比较文本和图像两大类四种视觉思维表达
- 核心思路：自然语言(N-LANG)——提示LVLM生成图像描述作为推理前缀；结构化语言(S-LANG)——生成场景图(scene graph)的JSON格式；编辑图像(E-IMG)——使用视觉工具(grounding/segmentation/depth)编辑原始图像；生成图像(G-IMG)——使用DALL-E 3基于query生成新图像作为推理辅助。不同表达在"清晰度"和"简洁度"上有差异
- 设计动机：系统覆盖文本和视觉两种模态、自由和结构化两种格式的2×2组合
Transformer内部信息流分析:
- 功能：揭示视觉思维如何在LVLM内部传递视觉信息
- 核心思路：通过注意力图分析发现：视觉思维token在深层Transformer中成为输入图像信息到推理token的主要中介(intermediary)。普通推理中图像token随层深增加注意力衰减，但有视觉思维时，信息先流到VT token再传到深层推理token——使更高级的视觉理解成为可能
- 设计动机：从模型内部机制解释VT为什么有效，而不仅仅停留在性能数字

实验关键数据¶

主实验¶

模型	方法	MMVP	V*Bench	M3CoT	CoMT	AVG
LLaVA-1.5-7B	w/o VT	43.42	44.44	26.83	16.00	34.36
LLaVA-1.5-7B	N-LANG	52.63	46.67	32.52	17.50	38.58
LLaVA-1.5-7B	S-LANG	52.63	51.11	31.71	20.50	39.50
LLaVA-1.5-7B	E-IMG	50.00	48.89	34.15	23.00	40.10
LLaVA-1.5-7B	G-IMG	48.68	55.56	39.02	25.00	42.27
Qwen2-VL-7B	w/o VT	55.26	80.00	74.80	18.00	56.11
Qwen2-VL-7B	S-LANG	68.42	85.56	79.67	20.00	60.41

消融实验¶

配置	关键指标	说明
图像形式VT vs 文本形式VT	CoMT-Selection精度	图像VT高出47.83%，尤其在复杂场景
VT vs 普通caption	复杂场景准确率	Brief caption丢失细节时VT提升>7%
删除VT(w/o VT)	全任务	比直接从query推理更差——VT位置被浪费
不同VLM规模	性能增益一致性	4款VLM均受益，效果与模型能力正相关

关键发现¶

G-IMG（生成图像）在LLaVA上表现最佳(AVG 42.27 vs w/o VT 34.36)——生成新图可突出关键信息
图像形式VT在复杂场景中优势尤其显著——图像模态在传递视觉信息方面有天然优势
VT不同于简单caption：caption只在简单场景有效，VT在复杂场景中提升幅度显著更大
注意力分析证实VT token是图像信息向深层传递的桥梁

亮点与洞察¶

"缓存"类比非常直观——将视觉思维理解为图像信息的缓存层，避免重复处理原始图像
四种VT表达形式的系统比较为MCoT方法选择提供了实用指导
内部注意力分析超越了表面性能数字——从信息流角度解释VT如何作为图像→推理的中介
统一框架弥合了T-MCoT和I-MCoT的争论——关键不在于形式而在于视觉信息传递的清晰度和效率

局限与展望¶

四种VT表达需要额外工具（DALL-E 3、视觉模型等），增加推理成本
实验主要在7B级别模型上，更大模型（如GPT-4V）是否有同样的VT需求不确定
注意力分析是描述性的，缺乏因果干预实验来确认VT的中介作用是否是因果的
未探索VT的自动选择策略——何时使用哪种VT表达仍需人工决定

评分¶

新颖性: ⭐⭐⭐⭐ 提出统一视角理解MCoT是有价值的概念贡献
实验充分度: ⭐⭐⭐⭐ 4种VT×4款VLM×多个基准×注意力分析，覆盖全面
写作质量: ⭐⭐⭐⭐ 框架定义严谨，缓存类比直观
价值: ⭐⭐⭐⭐ 为MCoT研究提供了统一的分析语言和系统比较基准