跳转至

Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs

会议: NeurIPS 2025
arXiv: 2506.22146
代码: https://sharif-ml-lab.github.io/VISER/
领域: 多模态VLM
关键词: 视觉推理, 绑定问题, 视觉提示, LVLM, 空间结构, 认知科学

一句话总结

提出 VISER(Visual Input Structure for Enhanced Reasoning),通过在图像上叠加等距水平线+数字标注构建空间分区,配合"逐行扫描"文本指令,将 LVLM 的并行视觉处理转化为串行逐区域解析,在不修改模型、不训练、单次查询的条件下,大幅缓解绑定问题并提升计数、视觉搜索、场景描述、空间关系等视觉推理性能。

研究背景与动机

领域现状:LVLM(如 GPT-4o、Claude 3.5 Sonnet)在语言推理上已接近甚至超越人类,但在视觉推理任务上持续表现不佳——计数、视觉搜索、场景描述、空间关系理解等看似简单的任务仍频繁出错。

现有痛点:这些视觉推理失败的根本原因可以归结为认知科学中的绑定问题(binding problem)——模型无法可靠地将感知特征(颜色、形状)与正确的视觉对象关联。当场景中存在多个相似对象时,特征容易被错误地跨对象混淆(illusory conjunctions),导致把"红色圆形+绿色方块"错误感知为"红色方块"。

核心矛盾:当前 LVLM 以并行方式处理视觉特征,缺乏空间定向的串行注意力机制。而尝试用纯文本策略(如 CoT 提示)来引导推理是无效的——因为一旦早期 token 基于纠缠的视觉特征生成,后续每一步推理都会继承相同的绑定错误。语言层面的补救无法修复视觉编码层面的问题。

本文目标:如何在不修改模型架构、不进行训练的前提下,通过简单的输入层面干预来缓解 LVLM 的绑定问题,提升多种视觉推理任务的性能。

切入角度:从认知科学/神经科学出发。人类视觉系统有两种模式:快速但不精确的并行处理(System 1)和更准确的串行注意力(System 2)。人类通过串行注意力来克服绑定问题。并且神经科学研究表明网格框架能增强视觉识别记忆——这提供了在视觉输入上添加结构化线条的理论基础。

核心 idea:在图像上画几条水平线并告诉模型"按行扫描"——这就是视觉版的 Chain-of-Thought,将归纳偏置直接注入视觉输入而非语言提示。

方法详解

整体框架

VISER 是一个完全免训练、模型无关的输入增强方法,包含两个互补组件:(1)在输入图像上叠加等距水平线作为视觉锚点;(2)在文本提示前附加顺序扫描指令。两个组件协同工作——视觉结构提供空间分区,文本指令引导模型利用这些分区进行串行处理。整个过程在单次查询内完成,几乎零额外计算开销。

关键设计

  1. 视觉结构化——水平线分区

    • 功能:在输入图像上叠加 n 条等距水平线(默认 n=3),将图像分割为 n+1 个水平区域,每个区域在左侧标注数字编号(1 到 n+1)
    • 核心思路:水平线充当"视觉锚点",限制模型在每个区域内进行局部注意力处理,减少跨对象的特征干扰;数字标注提供处理顺序的显式引导
    • 设计动机:受神经科学研究启发——网格框架增强人类视觉识别记忆,人类通过迭代检测单个对象来减少干扰。极简设计(仅几条线)保持图像清晰度的同时提供足够空间引导,避免密集网格遮挡内容
  2. 顺序扫描文本提示

    • 功能:在原始任务提示前附加固定指令:"Scan the image sequentially based on horizontal lines exists in the image",引导模型按从上到下的行顺序逐区域处理
    • 核心思路:将模型的注意力模式从全局并行转为局部串行,使模型在每个区域内面对更少的竞争对象,从而生成更干净的局部表征用于后续推理
    • 设计动机:视觉结构本身不能保证模型会利用它——需要文本指令将模型的处理策略与视觉支架对齐。实验证实两个组件缺一不可,单独使用任一组件的效果都显著弱于完整方法
  3. 任务自适应提示扩展

    • 功能:针对不同任务(计数、空间关系、视觉搜索等)在基础扫描指令基础上附加任务特定的辅助指令
    • 核心思路:基础的顺序扫描提供通用的串行处理策略,任务特定指令进一步引导模型在扫描过程中关注与任务相关的信息(如计数时累计每个区域的目标数量)
    • 设计动机:保持方法的通用性(同一视觉结构适用所有任务)的同时,通过轻量文本适配来优化各任务的性能表现

损失函数 / 训练策略

VISER 完全无需训练,不涉及损失函数、梯度更新或模型参数修改。方法在推理时通过输入增强实现,适用于任何黑盒 LVLM(包括闭源 API 模型如 GPT-4o)。无需多次查询或外部工具调用,所有增强在单次前向传播内完成。

实验关键数据

主实验

在 2D/3D 合成数据集和自然图像上评估,覆盖四个闭源/开源模型:

任务 指标 GPT-4o 基线 GPT-4o +VISER Claude 基线 Claude +VISER Qwen2.5-VL 基线 Qwen2.5-VL +VISER
计数 (2D) Accuracy 12.00% 38.83% 8.50% 10.67% 5.83% 40.83%
计数 (3D) Accuracy 15.00% 31.00% 17.33% 22.00% 8.51% 26.67%
视觉搜索 (2D) Harmonic Mean 0.48 0.73 0.34 0.66 0.30 0.40
视觉搜索 (3D) Harmonic Mean 0.91 0.93 0.80 0.86 0.12 0.20
场景描述 (2D) Edit Dist↓ 1.94 1.62 3.01 2.20 8.12 7.39
空间关系 (2D) Accuracy 43.00% 52.50% 34.18% 36.26% 48.50% 50.00%
空间关系 (自然) Accuracy 69.39% 77.43% 37.43% 46.15% 80.10% 77.04%

消融实验

以 GPT-4o 在 2D 计数任务为例,分离各组件贡献:

配置 2D 计数准确率 说明
基线(无任何增强) 12.00% 原始模型
仅视觉结构(水平线,无文本提示) ~28.5% 视觉结构独立起效
仅文本提示(扫描指令,无线条) ~14.2% 纯文本提示效果微弱
CoT 提示("Let's think step by step") ~9.8% 反而下降!
VISER 完整方法 38.83% 两个组件互补

此外,在与微调模型对比中(Qwen2.5-VL 基础上):VISER 在 2D 计数达到 41%,而 Mulberry(微调版)仅 15%,OpenVLThinker(RL 微调版)同为 15%——免训练方法大幅超越训练方法。

关键发现

  • 视觉修改是必需的:CoT 等纯文本策略不仅无效甚至导致性能下降,因为语言推理无法修复已纠缠的视觉表征
  • 两个组件缺一不可:视觉结构提供约 16.5% 的提升,加上文本提示再增加约 10%,完整方法达到最大收益
  • 对高复杂度场景改善更大:物体数量从 10 增加到 20 时,VISER 的相对增益更加显著(如 GPT-4o 在 14 个物体的 2D 计数从 1% 提升到 34%)
  • 模型无关性:在 GPT-4o、Claude 3.5、LLaMA4、Qwen2.5-VL 上均有效,且在 MMBench、PhysBench 等外部 benchmark 上也展示了泛化能力
  • 超越微调模型:VISER 应用于基础 Qwen2.5-VL 后,在多数任务上匹配甚至超越专门微调的 Mulberry 和 OpenVLThinker

亮点与洞察

  • 绑定问题作为统一解释框架:论文首次将认知科学中的绑定问题系统性地引入 LVLM 视觉推理失败的分析,提供了比"模型能力不足"更深层的机制性解释——不是模型不够强,而是缺乏串行注意力机制来正确关联特征与对象
  • "视觉 CoT"概念的提出:CoT 是在语言层面注入推理归纳偏置,VISER 则是在视觉层面注入——这个类比揭示了多模态推理中被忽视的维度:视觉输入的设计与语言提示同等重要甚至更重要
  • 反直觉发现——CoT 有害:在视觉推理任务中 CoT 反而降低性能,这一发现挑战了"CoT 万能"的默认假设,说明当问题源于视觉编码而非推理链路时,语言层面的干预是无效的
  • 极简方法的极大效果:仅仅在图像上画 3 条线+一句话指令,就能在计数任务上将 GPT-4o 从 12% 提升到 39%——方法的简洁性与效果的显著性形成强烈反差,暗示当前 LVLM 的视觉处理管线存在巨大的优化空间

局限与展望

  • 静态支架结构:水平线的位置和数量是固定的,当线条恰好穿过关键对象时可能遮挡信息或引入干扰;未来可研究自适应支架——根据图像内容动态确定线条位置
  • 合成数据偏重:主要实验在合成数据集上进行,自然图像上的提升相对有限(如 Qwen2.5-VL 在自然图像空间关系上反而下降 3.06%),真实场景的泛化性仍需进一步验证
  • 未探索更丰富的视觉结构:仅使用了水平线,未系统比较网格、圆形分区、轮廓线等其他视觉支架形式;集成多种支架的 ensemble 策略可能更鲁棒
  • 缺乏对视觉编码器内部机制的分析:论文展示了方法有效但未深入分析 LVLM 内部注意力模式在添加线条前后的变化,缺少对"为什么有效"的机制性解释

相关工作与启发

  • vs Visual Sketchpad:Sketchpad 让模型自己画辅助线进行推理,但需要 agentic 多步交互和工具调用;VISER 在输入层面一次性完成,更简洁高效
  • vs LVLM-COUNT:COUNT 通过外部计数工具分而治之,但不提升模型内在推理能力;VISER 直接改善模型的特征绑定过程
  • vs Mulberry/OpenVLThinker:微调方法需要大量训练资源且局限于特定基座模型;VISER 免训练且适用于任何模型(包括闭源 API)
  • 认知科学启发:Feature Integration Theory(Treisman & Gelade 1980)和串行注意力理论为方法设计提供了坚实的理论基础,这种跨学科思路值得借鉴

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 将认知科学的绑定问题理论引入 LVLM 分析,提出"视觉 CoT"概念,方法虽简单但视角独特且启发性极强
  • 实验充分度: ⭐⭐⭐⭐ — 覆盖 4 个模型、4 个核心任务、多个外部 benchmark、与微调方法的对比和详细消融,但自然图像评估偏少
  • 写作质量: ⭐⭐⭐⭐⭐ — 认知科学理论铺垫完整,动机清晰,实验组织有条理,讨论深入,整体叙事逻辑严密
  • 价值: ⭐⭐⭐⭐⭐ — 即插即用、零成本、适用于所有模型,揭示了视觉输入设计比语言提示更重要这一被忽视的维度,对后续研究方向有重要指引意义

title: >- [论文解读] Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs description: >- [NeurIPS 2025][多模态][视觉推理] 提出 VISER,通过在图像上叠加水平线等低层级空间结构并配合顺序扫描提示,引导 LVLM 进行逐区域串行注意力解析,在视觉搜索、计数和空间关系等任务上大幅提升性能(GPT-4o 计数提升 26.8%)。 tags: - NeurIPS 2025 - 多模态 - 视觉推理 - 绑定问题 - 视觉提示 - LVLM - 空间结构


Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs

会议: NeurIPS 2025
arXiv: 2506.22146
代码: https://sharif-ml-lab.github.io/VISER/
领域: 多模态VLM
关键词: 视觉推理, 绑定问题, 视觉提示, LVLM, 空间结构

一句话总结

提出 VISER,通过在图像上叠加水平线等低层级空间结构并配合顺序扫描提示,引导 LVLM 进行逐区域串行注意力解析,在视觉搜索、计数和空间关系等任务上大幅提升性能(GPT-4o 计数提升 26.8%)。

研究背景与动机

领域现状:LVLM 在视觉推理上落后于纯文本 LLM,在计数、视觉搜索、场景描述和空间关系理解上持续犯错

现有痛点:根本原因是绑定问题(binding problem)——模型无法可靠地将视觉特征(颜色、形状)与正确的对象关联。LVLM 并行处理视觉输入,缺乏空间定向的串行注意力

核心矛盾:纯文本策略(包括 CoT)不足以甚至可能恶化视觉推理性能

核心 idea:受认知科学启发——人类通过串行注意力(System 2)克服绑定问题——在视觉输入上添加水平线分区,配合"逐行扫描"文本指令

方法详解

关键设计

  1. 视觉结构化:在图像上叠加 n=3 条等距水平线,将图像分为 n+1 个区域,每个区域编号标注,作为视觉锚点
  2. 顺序扫描提示:附加固定指令 "Scan the image sequentially based on horizontal lines",引导模型逐区域处理
  3. 设计动机:水平线减少跨对象干扰,促进局部注意力;逐区域处理类似人类的 System 2 串行推理。方法是 CoT 的视觉类比——将归纳偏置直接注入视觉输入

训练策略

完全无训练,单次查询,几乎零额外计算开销。任务/模型无关。

实验关键数据

主实验 — 2D 合成数据集

任务 GPT-4o Base GPT-4o +VISER 提升
视觉搜索 (Harmonic Mean) ~60% ~85% +25.0%
计数 (Accuracy) 12.0% 38.8% +26.8%
空间关系 (Accuracy) ~70% ~79.5% +9.5%
场景描述 (Edit Distance↓) ~1.2 ~0.88 -0.32

消融实验

配置 计数准确率
基线 12.0%
仅视觉结构(无提示) 28.5%
仅文本提示(无线条) 14.2%
VISER(完整) 38.8%
CoT 提示 9.8% (下降!)

关键发现

  • 视觉修改是必要的——纯文本策略(CoT)不仅不够还可能恶化性能
  • 在开源模型(Qwen2.5-VL-7B、LLaMA4)上同样有效
  • 对物体数量越多的场景,改善越显著

亮点与洞察

  • 绑定问题作为理论框架解释了 LVLM 视觉推理失败的根源——不只是"能力不足",而是特征关联机制的结构性缺陷
  • 视觉修改 > 文本策略是一个反直觉但重要的发现——说明 LVLM 的视觉处理管线需要结构化输入引导
  • 方法极简但效果显著,可以立即部署

局限与展望

  • 水平线可能遮挡图像内容;线条数量需要调整
  • 对自然图像的评估不如合成数据充分
  • 未探索更复杂的视觉结构(如网格、圆形分区)

相关工作与启发

  • vs Visual Sketchpad:Visual Sketchpad 让模型自己画辅助线,但需要代理式多步交互;VISER 是单次查询
  • vs LVLM-COUNT:LVLM-COUNT 用外部计数工具做分而治之,但不提升模型本身的推理能力

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 绑定问题视角+视觉 CoT 类比
  • 实验充分度: ⭐⭐⭐⭐ 多模型多任务,消融详细
  • 写作质量: ⭐⭐⭐⭐⭐ 认知科学理论支撑充分
  • 价值: ⭐⭐⭐⭐⭐ 即插即用,揭示了视觉输入设计的重要性