Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs¶
会议: NeurIPS 2025
arXiv: 2506.22146
代码: https://sharif-ml-lab.github.io/VISER/
领域: 多模态VLM
关键词: 视觉推理, 绑定问题, 视觉提示, LVLM, 空间结构, 认知科学
一句话总结¶
提出 VISER(Visual Input Structure for Enhanced Reasoning),通过在图像上叠加等距水平线+数字标注构建空间分区,配合"逐行扫描"文本指令,将 LVLM 的并行视觉处理转化为串行逐区域解析,在不修改模型、不训练、单次查询的条件下,大幅缓解绑定问题并提升计数、视觉搜索、场景描述、空间关系等视觉推理性能。
研究背景与动机¶
领域现状:LVLM(如 GPT-4o、Claude 3.5 Sonnet)在语言推理上已接近甚至超越人类,但在视觉推理任务上持续表现不佳——计数、视觉搜索、场景描述、空间关系理解等看似简单的任务仍频繁出错。
现有痛点:这些视觉推理失败的根本原因可以归结为认知科学中的绑定问题(binding problem)——模型无法可靠地将感知特征(颜色、形状)与正确的视觉对象关联。当场景中存在多个相似对象时,特征容易被错误地跨对象混淆(illusory conjunctions),导致把"红色圆形+绿色方块"错误感知为"红色方块"。
核心矛盾:当前 LVLM 以并行方式处理视觉特征,缺乏空间定向的串行注意力机制。而尝试用纯文本策略(如 CoT 提示)来引导推理是无效的——因为一旦早期 token 基于纠缠的视觉特征生成,后续每一步推理都会继承相同的绑定错误。语言层面的补救无法修复视觉编码层面的问题。
本文目标:如何在不修改模型架构、不进行训练的前提下,通过简单的输入层面干预来缓解 LVLM 的绑定问题,提升多种视觉推理任务的性能。
切入角度:从认知科学/神经科学出发。人类视觉系统有两种模式:快速但不精确的并行处理(System 1)和更准确的串行注意力(System 2)。人类通过串行注意力来克服绑定问题。并且神经科学研究表明网格框架能增强视觉识别记忆——这提供了在视觉输入上添加结构化线条的理论基础。
核心 idea:在图像上画几条水平线并告诉模型"按行扫描"——这就是视觉版的 Chain-of-Thought,将归纳偏置直接注入视觉输入而非语言提示。
方法详解¶
整体框架¶
VISER 是一个完全免训练、模型无关的输入增强方法,包含两个互补组件:(1)在输入图像上叠加等距水平线作为视觉锚点;(2)在文本提示前附加顺序扫描指令。两个组件协同工作——视觉结构提供空间分区,文本指令引导模型利用这些分区进行串行处理。整个过程在单次查询内完成,几乎零额外计算开销。
关键设计¶
-
视觉结构化——水平线分区
- 功能:在输入图像上叠加 n 条等距水平线(默认 n=3),将图像分割为 n+1 个水平区域,每个区域在左侧标注数字编号(1 到 n+1)
- 核心思路:水平线充当"视觉锚点",限制模型在每个区域内进行局部注意力处理,减少跨对象的特征干扰;数字标注提供处理顺序的显式引导
- 设计动机:受神经科学研究启发——网格框架增强人类视觉识别记忆,人类通过迭代检测单个对象来减少干扰。极简设计(仅几条线)保持图像清晰度的同时提供足够空间引导,避免密集网格遮挡内容
-
顺序扫描文本提示
- 功能:在原始任务提示前附加固定指令:"Scan the image sequentially based on horizontal lines exists in the image",引导模型按从上到下的行顺序逐区域处理
- 核心思路:将模型的注意力模式从全局并行转为局部串行,使模型在每个区域内面对更少的竞争对象,从而生成更干净的局部表征用于后续推理
- 设计动机:视觉结构本身不能保证模型会利用它——需要文本指令将模型的处理策略与视觉支架对齐。实验证实两个组件缺一不可,单独使用任一组件的效果都显著弱于完整方法
-
任务自适应提示扩展
- 功能:针对不同任务(计数、空间关系、视觉搜索等)在基础扫描指令基础上附加任务特定的辅助指令
- 核心思路:基础的顺序扫描提供通用的串行处理策略,任务特定指令进一步引导模型在扫描过程中关注与任务相关的信息(如计数时累计每个区域的目标数量)
- 设计动机:保持方法的通用性(同一视觉结构适用所有任务)的同时,通过轻量文本适配来优化各任务的性能表现
损失函数 / 训练策略¶
VISER 完全无需训练,不涉及损失函数、梯度更新或模型参数修改。方法在推理时通过输入增强实现,适用于任何黑盒 LVLM(包括闭源 API 模型如 GPT-4o)。无需多次查询或外部工具调用,所有增强在单次前向传播内完成。
实验关键数据¶
主实验¶
在 2D/3D 合成数据集和自然图像上评估,覆盖四个闭源/开源模型:
| 任务 | 指标 | GPT-4o 基线 | GPT-4o +VISER | Claude 基线 | Claude +VISER | Qwen2.5-VL 基线 | Qwen2.5-VL +VISER |
|---|---|---|---|---|---|---|---|
| 计数 (2D) | Accuracy | 12.00% | 38.83% | 8.50% | 10.67% | 5.83% | 40.83% |
| 计数 (3D) | Accuracy | 15.00% | 31.00% | 17.33% | 22.00% | 8.51% | 26.67% |
| 视觉搜索 (2D) | Harmonic Mean | 0.48 | 0.73 | 0.34 | 0.66 | 0.30 | 0.40 |
| 视觉搜索 (3D) | Harmonic Mean | 0.91 | 0.93 | 0.80 | 0.86 | 0.12 | 0.20 |
| 场景描述 (2D) | Edit Dist↓ | 1.94 | 1.62 | 3.01 | 2.20 | 8.12 | 7.39 |
| 空间关系 (2D) | Accuracy | 43.00% | 52.50% | 34.18% | 36.26% | 48.50% | 50.00% |
| 空间关系 (自然) | Accuracy | 69.39% | 77.43% | 37.43% | 46.15% | 80.10% | 77.04% |
消融实验¶
以 GPT-4o 在 2D 计数任务为例,分离各组件贡献:
| 配置 | 2D 计数准确率 | 说明 |
|---|---|---|
| 基线(无任何增强) | 12.00% | 原始模型 |
| 仅视觉结构(水平线,无文本提示) | ~28.5% | 视觉结构独立起效 |
| 仅文本提示(扫描指令,无线条) | ~14.2% | 纯文本提示效果微弱 |
| CoT 提示("Let's think step by step") | ~9.8% | 反而下降! |
| VISER 完整方法 | 38.83% | 两个组件互补 |
此外,在与微调模型对比中(Qwen2.5-VL 基础上):VISER 在 2D 计数达到 41%,而 Mulberry(微调版)仅 15%,OpenVLThinker(RL 微调版)同为 15%——免训练方法大幅超越训练方法。
关键发现¶
- 视觉修改是必需的:CoT 等纯文本策略不仅无效甚至导致性能下降,因为语言推理无法修复已纠缠的视觉表征
- 两个组件缺一不可:视觉结构提供约 16.5% 的提升,加上文本提示再增加约 10%,完整方法达到最大收益
- 对高复杂度场景改善更大:物体数量从 10 增加到 20 时,VISER 的相对增益更加显著(如 GPT-4o 在 14 个物体的 2D 计数从 1% 提升到 34%)
- 模型无关性:在 GPT-4o、Claude 3.5、LLaMA4、Qwen2.5-VL 上均有效,且在 MMBench、PhysBench 等外部 benchmark 上也展示了泛化能力
- 超越微调模型:VISER 应用于基础 Qwen2.5-VL 后,在多数任务上匹配甚至超越专门微调的 Mulberry 和 OpenVLThinker
亮点与洞察¶
- 绑定问题作为统一解释框架:论文首次将认知科学中的绑定问题系统性地引入 LVLM 视觉推理失败的分析,提供了比"模型能力不足"更深层的机制性解释——不是模型不够强,而是缺乏串行注意力机制来正确关联特征与对象
- "视觉 CoT"概念的提出:CoT 是在语言层面注入推理归纳偏置,VISER 则是在视觉层面注入——这个类比揭示了多模态推理中被忽视的维度:视觉输入的设计与语言提示同等重要甚至更重要
- 反直觉发现——CoT 有害:在视觉推理任务中 CoT 反而降低性能,这一发现挑战了"CoT 万能"的默认假设,说明当问题源于视觉编码而非推理链路时,语言层面的干预是无效的
- 极简方法的极大效果:仅仅在图像上画 3 条线+一句话指令,就能在计数任务上将 GPT-4o 从 12% 提升到 39%——方法的简洁性与效果的显著性形成强烈反差,暗示当前 LVLM 的视觉处理管线存在巨大的优化空间
局限与展望¶
- 静态支架结构:水平线的位置和数量是固定的,当线条恰好穿过关键对象时可能遮挡信息或引入干扰;未来可研究自适应支架——根据图像内容动态确定线条位置
- 合成数据偏重:主要实验在合成数据集上进行,自然图像上的提升相对有限(如 Qwen2.5-VL 在自然图像空间关系上反而下降 3.06%),真实场景的泛化性仍需进一步验证
- 未探索更丰富的视觉结构:仅使用了水平线,未系统比较网格、圆形分区、轮廓线等其他视觉支架形式;集成多种支架的 ensemble 策略可能更鲁棒
- 缺乏对视觉编码器内部机制的分析:论文展示了方法有效但未深入分析 LVLM 内部注意力模式在添加线条前后的变化,缺少对"为什么有效"的机制性解释
相关工作与启发¶
- vs Visual Sketchpad:Sketchpad 让模型自己画辅助线进行推理,但需要 agentic 多步交互和工具调用;VISER 在输入层面一次性完成,更简洁高效
- vs LVLM-COUNT:COUNT 通过外部计数工具分而治之,但不提升模型内在推理能力;VISER 直接改善模型的特征绑定过程
- vs Mulberry/OpenVLThinker:微调方法需要大量训练资源且局限于特定基座模型;VISER 免训练且适用于任何模型(包括闭源 API)
- 认知科学启发:Feature Integration Theory(Treisman & Gelade 1980)和串行注意力理论为方法设计提供了坚实的理论基础,这种跨学科思路值得借鉴
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 将认知科学的绑定问题理论引入 LVLM 分析,提出"视觉 CoT"概念,方法虽简单但视角独特且启发性极强
- 实验充分度: ⭐⭐⭐⭐ — 覆盖 4 个模型、4 个核心任务、多个外部 benchmark、与微调方法的对比和详细消融,但自然图像评估偏少
- 写作质量: ⭐⭐⭐⭐⭐ — 认知科学理论铺垫完整,动机清晰,实验组织有条理,讨论深入,整体叙事逻辑严密
- 价值: ⭐⭐⭐⭐⭐ — 即插即用、零成本、适用于所有模型,揭示了视觉输入设计比语言提示更重要这一被忽视的维度,对后续研究方向有重要指引意义
title: >- [论文解读] Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs description: >- [NeurIPS 2025][多模态][视觉推理] 提出 VISER,通过在图像上叠加水平线等低层级空间结构并配合顺序扫描提示,引导 LVLM 进行逐区域串行注意力解析,在视觉搜索、计数和空间关系等任务上大幅提升性能(GPT-4o 计数提升 26.8%)。 tags: - NeurIPS 2025 - 多模态 - 视觉推理 - 绑定问题 - 视觉提示 - LVLM - 空间结构
Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs¶
会议: NeurIPS 2025
arXiv: 2506.22146
代码: https://sharif-ml-lab.github.io/VISER/
领域: 多模态VLM
关键词: 视觉推理, 绑定问题, 视觉提示, LVLM, 空间结构
一句话总结¶
提出 VISER,通过在图像上叠加水平线等低层级空间结构并配合顺序扫描提示,引导 LVLM 进行逐区域串行注意力解析,在视觉搜索、计数和空间关系等任务上大幅提升性能(GPT-4o 计数提升 26.8%)。
研究背景与动机¶
领域现状:LVLM 在视觉推理上落后于纯文本 LLM,在计数、视觉搜索、场景描述和空间关系理解上持续犯错
现有痛点:根本原因是绑定问题(binding problem)——模型无法可靠地将视觉特征(颜色、形状)与正确的对象关联。LVLM 并行处理视觉输入,缺乏空间定向的串行注意力
核心矛盾:纯文本策略(包括 CoT)不足以甚至可能恶化视觉推理性能
核心 idea:受认知科学启发——人类通过串行注意力(System 2)克服绑定问题——在视觉输入上添加水平线分区,配合"逐行扫描"文本指令
方法详解¶
关键设计¶
- 视觉结构化:在图像上叠加 n=3 条等距水平线,将图像分为 n+1 个区域,每个区域编号标注,作为视觉锚点
- 顺序扫描提示:附加固定指令 "Scan the image sequentially based on horizontal lines",引导模型逐区域处理
- 设计动机:水平线减少跨对象干扰,促进局部注意力;逐区域处理类似人类的 System 2 串行推理。方法是 CoT 的视觉类比——将归纳偏置直接注入视觉输入
训练策略¶
完全无训练,单次查询,几乎零额外计算开销。任务/模型无关。
实验关键数据¶
主实验 — 2D 合成数据集¶
| 任务 | GPT-4o Base | GPT-4o +VISER | 提升 |
|---|---|---|---|
| 视觉搜索 (Harmonic Mean) | ~60% | ~85% | +25.0% |
| 计数 (Accuracy) | 12.0% | 38.8% | +26.8% |
| 空间关系 (Accuracy) | ~70% | ~79.5% | +9.5% |
| 场景描述 (Edit Distance↓) | ~1.2 | ~0.88 | -0.32 |
消融实验¶
| 配置 | 计数准确率 |
|---|---|
| 基线 | 12.0% |
| 仅视觉结构(无提示) | 28.5% |
| 仅文本提示(无线条) | 14.2% |
| VISER(完整) | 38.8% |
| CoT 提示 | 9.8% (下降!) |
关键发现¶
- 视觉修改是必要的——纯文本策略(CoT)不仅不够还可能恶化性能
- 在开源模型(Qwen2.5-VL-7B、LLaMA4)上同样有效
- 对物体数量越多的场景,改善越显著
亮点与洞察¶
- 绑定问题作为理论框架解释了 LVLM 视觉推理失败的根源——不只是"能力不足",而是特征关联机制的结构性缺陷
- 视觉修改 > 文本策略是一个反直觉但重要的发现——说明 LVLM 的视觉处理管线需要结构化输入引导
- 方法极简但效果显著,可以立即部署
局限与展望¶
- 水平线可能遮挡图像内容;线条数量需要调整
- 对自然图像的评估不如合成数据充分
- 未探索更复杂的视觉结构(如网格、圆形分区)
相关工作与启发¶
- vs Visual Sketchpad:Visual Sketchpad 让模型自己画辅助线,但需要代理式多步交互;VISER 是单次查询
- vs LVLM-COUNT:LVLM-COUNT 用外部计数工具做分而治之,但不提升模型本身的推理能力
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 绑定问题视角+视觉 CoT 类比
- 实验充分度: ⭐⭐⭐⭐ 多模型多任务,消融详细
- 写作质量: ⭐⭐⭐⭐⭐ 认知科学理论支撑充分
- 价值: ⭐⭐⭐⭐⭐ 即插即用,揭示了视觉输入设计的重要性