Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs¶

会议: NeurIPS 2025
arXiv: 2506.22146
代码: https://sharif-ml-lab.github.io/VISER/
领域: 多模态VLM
关键词: 视觉推理, 绑定问题, 视觉提示, LVLM, 空间结构, 认知科学

一句话总结¶

提出 VISER（Visual Input Structure for Enhanced Reasoning），通过在图像上叠加等距水平线+数字标注构建空间分区，配合"逐行扫描"文本指令，将 LVLM 的并行视觉处理转化为串行逐区域解析，在不修改模型、不训练、单次查询的条件下，大幅缓解绑定问题并提升计数、视觉搜索、场景描述、空间关系等视觉推理性能。

研究背景与动机¶

领域现状：LVLM（如 GPT-4o、Claude 3.5 Sonnet）在语言推理上已接近甚至超越人类，但在视觉推理任务上持续表现不佳——计数、视觉搜索、场景描述、空间关系理解等看似简单的任务仍频繁出错。

现有痛点：这些视觉推理失败的根本原因可以归结为认知科学中的绑定问题（binding problem）——模型无法可靠地将感知特征（颜色、形状）与正确的视觉对象关联。当场景中存在多个相似对象时，特征容易被错误地跨对象混淆（illusory conjunctions），导致把"红色圆形+绿色方块"错误感知为"红色方块"。

核心矛盾：当前 LVLM 以并行方式处理视觉特征，缺乏空间定向的串行注意力机制。而尝试用纯文本策略（如 CoT 提示）来引导推理是无效的——因为一旦早期 token 基于纠缠的视觉特征生成，后续每一步推理都会继承相同的绑定错误。语言层面的补救无法修复视觉编码层面的问题。

本文目标：如何在不修改模型架构、不进行训练的前提下，通过简单的输入层面干预来缓解 LVLM 的绑定问题，提升多种视觉推理任务的性能。

切入角度：从认知科学/神经科学出发。人类视觉系统有两种模式：快速但不精确的并行处理（System 1）和更准确的串行注意力（System 2）。人类通过串行注意力来克服绑定问题。并且神经科学研究表明网格框架能增强视觉识别记忆——这提供了在视觉输入上添加结构化线条的理论基础。

核心 idea：在图像上画几条水平线并告诉模型"按行扫描"——这就是视觉版的 Chain-of-Thought，将归纳偏置直接注入视觉输入而非语言提示。

方法详解¶

整体框架¶

VISER 是一个完全免训练、模型无关的输入增强方法，包含两个互补组件：（1）在输入图像上叠加等距水平线作为视觉锚点；（2）在文本提示前附加顺序扫描指令。两个组件协同工作——视觉结构提供空间分区，文本指令引导模型利用这些分区进行串行处理。整个过程在单次查询内完成，几乎零额外计算开销。

关键设计¶

视觉结构化——水平线分区
- 功能：在输入图像上叠加 n 条等距水平线（默认 n=3），将图像分割为 n+1 个水平区域，每个区域在左侧标注数字编号（1 到 n+1）
- 核心思路：水平线充当"视觉锚点"，限制模型在每个区域内进行局部注意力处理，减少跨对象的特征干扰；数字标注提供处理顺序的显式引导
- 设计动机：受神经科学研究启发——网格框架增强人类视觉识别记忆，人类通过迭代检测单个对象来减少干扰。极简设计（仅几条线）保持图像清晰度的同时提供足够空间引导，避免密集网格遮挡内容
顺序扫描文本提示
- 功能：在原始任务提示前附加固定指令："Scan the image sequentially based on horizontal lines exists in the image"，引导模型按从上到下的行顺序逐区域处理
- 核心思路：将模型的注意力模式从全局并行转为局部串行，使模型在每个区域内面对更少的竞争对象，从而生成更干净的局部表征用于后续推理
- 设计动机：视觉结构本身不能保证模型会利用它——需要文本指令将模型的处理策略与视觉支架对齐。实验证实两个组件缺一不可，单独使用任一组件的效果都显著弱于完整方法
任务自适应提示扩展
- 功能：针对不同任务（计数、空间关系、视觉搜索等）在基础扫描指令基础上附加任务特定的辅助指令
- 核心思路：基础的顺序扫描提供通用的串行处理策略，任务特定指令进一步引导模型在扫描过程中关注与任务相关的信息（如计数时累计每个区域的目标数量）
- 设计动机：保持方法的通用性（同一视觉结构适用所有任务）的同时，通过轻量文本适配来优化各任务的性能表现

损失函数 / 训练策略¶

VISER 完全无需训练，不涉及损失函数、梯度更新或模型参数修改。方法在推理时通过输入增强实现，适用于任何黑盒 LVLM（包括闭源 API 模型如 GPT-4o）。无需多次查询或外部工具调用，所有增强在单次前向传播内完成。

实验关键数据¶

主实验¶

在 2D/3D 合成数据集和自然图像上评估，覆盖四个闭源/开源模型：

任务	指标	GPT-4o 基线	GPT-4o +VISER	Claude 基线	Claude +VISER	Qwen2.5-VL 基线	Qwen2.5-VL +VISER
计数 (2D)	Accuracy	12.00%	38.83%	8.50%	10.67%	5.83%	40.83%
计数 (3D)	Accuracy	15.00%	31.00%	17.33%	22.00%	8.51%	26.67%
视觉搜索 (2D)	Harmonic Mean	0.48	0.73	0.34	0.66	0.30	0.40
视觉搜索 (3D)	Harmonic Mean	0.91	0.93	0.80	0.86	0.12	0.20
场景描述 (2D)	Edit Dist↓	1.94	1.62	3.01	2.20	8.12	7.39
空间关系 (2D)	Accuracy	43.00%	52.50%	34.18%	36.26%	48.50%	50.00%
空间关系 (自然)	Accuracy	69.39%	77.43%	37.43%	46.15%	80.10%	77.04%

消融实验¶

以 GPT-4o 在 2D 计数任务为例，分离各组件贡献：

配置	2D 计数准确率	说明
基线（无任何增强）	12.00%	原始模型
仅视觉结构（水平线，无文本提示）	~28.5%	视觉结构独立起效
仅文本提示（扫描指令，无线条）	~14.2%	纯文本提示效果微弱
CoT 提示（"Let's think step by step"）	~9.8%	反而下降！
VISER 完整方法	38.83%	两个组件互补

此外，在与微调模型对比中（Qwen2.5-VL 基础上）：VISER 在 2D 计数达到 41%，而 Mulberry（微调版）仅 15%，OpenVLThinker（RL 微调版）同为 15%——免训练方法大幅超越训练方法。

关键发现¶

视觉修改是必需的：CoT 等纯文本策略不仅无效甚至导致性能下降，因为语言推理无法修复已纠缠的视觉表征
两个组件缺一不可：视觉结构提供约 16.5% 的提升，加上文本提示再增加约 10%，完整方法达到最大收益
对高复杂度场景改善更大：物体数量从 10 增加到 20 时，VISER 的相对增益更加显著（如 GPT-4o 在 14 个物体的 2D 计数从 1% 提升到 34%）
模型无关性：在 GPT-4o、Claude 3.5、LLaMA4、Qwen2.5-VL 上均有效，且在 MMBench、PhysBench 等外部 benchmark 上也展示了泛化能力
超越微调模型：VISER 应用于基础 Qwen2.5-VL 后，在多数任务上匹配甚至超越专门微调的 Mulberry 和 OpenVLThinker

亮点与洞察¶

绑定问题作为统一解释框架：论文首次将认知科学中的绑定问题系统性地引入 LVLM 视觉推理失败的分析，提供了比"模型能力不足"更深层的机制性解释——不是模型不够强，而是缺乏串行注意力机制来正确关联特征与对象
"视觉 CoT"概念的提出：CoT 是在语言层面注入推理归纳偏置，VISER 则是在视觉层面注入——这个类比揭示了多模态推理中被忽视的维度：视觉输入的设计与语言提示同等重要甚至更重要
反直觉发现——CoT 有害：在视觉推理任务中 CoT 反而降低性能，这一发现挑战了"CoT 万能"的默认假设，说明当问题源于视觉编码而非推理链路时，语言层面的干预是无效的
极简方法的极大效果：仅仅在图像上画 3 条线+一句话指令，就能在计数任务上将 GPT-4o 从 12% 提升到 39%——方法的简洁性与效果的显著性形成强烈反差，暗示当前 LVLM 的视觉处理管线存在巨大的优化空间

局限与展望¶

静态支架结构：水平线的位置和数量是固定的，当线条恰好穿过关键对象时可能遮挡信息或引入干扰；未来可研究自适应支架——根据图像内容动态确定线条位置
合成数据偏重：主要实验在合成数据集上进行，自然图像上的提升相对有限（如 Qwen2.5-VL 在自然图像空间关系上反而下降 3.06%），真实场景的泛化性仍需进一步验证
未探索更丰富的视觉结构：仅使用了水平线，未系统比较网格、圆形分区、轮廓线等其他视觉支架形式；集成多种支架的 ensemble 策略可能更鲁棒
缺乏对视觉编码器内部机制的分析：论文展示了方法有效但未深入分析 LVLM 内部注意力模式在添加线条前后的变化，缺少对"为什么有效"的机制性解释

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 将认知科学的绑定问题理论引入 LVLM 分析，提出"视觉 CoT"概念，方法虽简单但视角独特且启发性极强
实验充分度: ⭐⭐⭐⭐ — 覆盖 4 个模型、4 个核心任务、多个外部 benchmark、与微调方法的对比和详细消融，但自然图像评估偏少
写作质量: ⭐⭐⭐⭐⭐ — 认知科学理论铺垫完整，动机清晰，实验组织有条理，讨论深入，整体叙事逻辑严密
价值: ⭐⭐⭐⭐⭐ — 即插即用、零成本、适用于所有模型，揭示了视觉输入设计比语言提示更重要这一被忽视的维度，对后续研究方向有重要指引意义

title: >- [论文解读] Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs description: >- [NeurIPS 2025][多模态][视觉推理] 提出 VISER，通过在图像上叠加水平线等低层级空间结构并配合顺序扫描提示，引导 LVLM 进行逐区域串行注意力解析，在视觉搜索、计数和空间关系等任务上大幅提升性能（GPT-4o 计数提升 26.8%）。 tags: - NeurIPS 2025 - 多模态 - 视觉推理 - 绑定问题 - 视觉提示 - LVLM - 空间结构

Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs¶

会议: NeurIPS 2025
arXiv: 2506.22146
代码: https://sharif-ml-lab.github.io/VISER/
领域: 多模态VLM
关键词: 视觉推理, 绑定问题, 视觉提示, LVLM, 空间结构

一句话总结¶

提出 VISER，通过在图像上叠加水平线等低层级空间结构并配合顺序扫描提示，引导 LVLM 进行逐区域串行注意力解析，在视觉搜索、计数和空间关系等任务上大幅提升性能（GPT-4o 计数提升 26.8%）。

研究背景与动机¶

领域现状：LVLM 在视觉推理上落后于纯文本 LLM，在计数、视觉搜索、场景描述和空间关系理解上持续犯错

现有痛点：根本原因是绑定问题（binding problem）——模型无法可靠地将视觉特征（颜色、形状）与正确的对象关联。LVLM 并行处理视觉输入，缺乏空间定向的串行注意力

核心矛盾：纯文本策略（包括 CoT）不足以甚至可能恶化视觉推理性能

核心 idea：受认知科学启发——人类通过串行注意力（System 2）克服绑定问题——在视觉输入上添加水平线分区，配合"逐行扫描"文本指令

方法详解¶

关键设计¶

视觉结构化：在图像上叠加 n=3 条等距水平线，将图像分为 n+1 个区域，每个区域编号标注，作为视觉锚点
顺序扫描提示：附加固定指令 "Scan the image sequentially based on horizontal lines"，引导模型逐区域处理
设计动机：水平线减少跨对象干扰，促进局部注意力；逐区域处理类似人类的 System 2 串行推理。方法是 CoT 的视觉类比——将归纳偏置直接注入视觉输入

训练策略¶

完全无训练，单次查询，几乎零额外计算开销。任务/模型无关。

实验关键数据¶

主实验 — 2D 合成数据集¶

任务	GPT-4o Base	GPT-4o +VISER	提升
视觉搜索 (Harmonic Mean)	~60%	~85%	+25.0%
计数 (Accuracy)	12.0%	38.8%	+26.8%
空间关系 (Accuracy)	~70%	~79.5%	+9.5%
场景描述 (Edit Distance↓)	~1.2	~0.88	-0.32

消融实验¶

配置	计数准确率
基线	12.0%
仅视觉结构（无提示）	28.5%
仅文本提示（无线条）	14.2%
VISER（完整）	38.8%
CoT 提示	9.8% (下降!)

关键发现¶

视觉修改是必要的——纯文本策略（CoT）不仅不够还可能恶化性能
在开源模型（Qwen2.5-VL-7B、LLaMA4）上同样有效
对物体数量越多的场景，改善越显著

亮点与洞察¶

绑定问题作为理论框架解释了 LVLM 视觉推理失败的根源——不只是"能力不足"，而是特征关联机制的结构性缺陷
视觉修改 > 文本策略是一个反直觉但重要的发现——说明 LVLM 的视觉处理管线需要结构化输入引导
方法极简但效果显著，可以立即部署

局限与展望¶

水平线可能遮挡图像内容；线条数量需要调整
对自然图像的评估不如合成数据充分
未探索更复杂的视觉结构（如网格、圆形分区）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 绑定问题视角+视觉 CoT 类比
实验充分度: ⭐⭐⭐⭐ 多模型多任务，消融详细
写作质量: ⭐⭐⭐⭐⭐ 认知科学理论支撑充分
价值: ⭐⭐⭐⭐⭐ 即插即用，揭示了视觉输入设计的重要性

Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs¶

一句话总结¶

研究背景与动机¶

方法详解¶

关键设计¶

训练策略¶

实验关键数据¶

主实验 — 2D 合成数据集¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs¶

一句话总结¶

研究背景与动机¶

方法详解¶

关键设计¶

训练策略¶

实验关键数据¶

主实验 — 2D 合成数据集¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶