跳转至

CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting

会议: ICCV 2025
arXiv: 2504.15485
代码: https://github.com/atinpothiraj/CAPTURe
领域: 多模态VLM
关键词: VLM evaluation, spatial reasoning, amodal completion, occlusion, counting benchmark

一句话总结

本文提出CAPTURe基准,通过要求VLM在遮挡场景中对规律排列的物体进行"模态补全计数"(amodal counting),系统评估VLM的空间推理和世界模型构建能力,发现即使最强的GPT-4o在遮挡场景下也有14.75%的计数误差,而人类几乎无误差。

研究背景与动机

  • 领域现状:VLM在多种视觉推理任务上取得了突破性进展,但其是否能像人类一样理解遮挡场景、推断不可见物体仍是开放问题
  • 现有痛点:(1)现有VLM评测忽略了遮挡推理能力;(2)模态补全(amodal completion)通常通过像素级预测评估,不适用于文本输出的VLM;(3)缺少客观可量化的遮挡推理指标
  • 核心矛盾:人类视觉系统能轻松推断遮挡物后的物体并计数,但VLM是否具备类似的"世界模型"能力是未知的
  • 本文要解决的问题:设计一个客观、可量化的VLM遮挡推理评测基准
  • 切入角度:利用物体的规律排列模式(如网格、圆形等)使遮挡后的计数问题有唯一确定答案,以计数准确度作为评估指标
  • 核心idea:模式+遮挡+计数 = 可测量的世界模型评测,同时测试VLM的模式识别、空间推理和计数三维能力

方法详解

整体框架

CAPTURe是一个evaluation benchmark而非方法论文。基准设计包含两个子集:CAPTURe\(^{\text{real}}\)(924张真实图像,92种物体类别)和CAPTURe\(^{\text{synthetic}}\)(1250张合成图像,可控变量)。每张图像包含按规律排列的物体,部分区域被黑色方块遮挡,VLM需要推断遮挡下的物体并报告总数。

关键设计

  1. CAPTURe\(^{\text{real}}\)数据集:

    • 功能:提供真实场景下的模态补全计数评测
    • 核心思路:从FSC-147数据集筛选包含规律排列物体的图像,经GPT-4o初筛+人工验证过滤出924张,手动覆盖黑色遮挡块。保留遮挡和非遮挡两个版本用于对比
    • 设计动机:在自然场景中测试VLM,覆盖92种物体类型,平均每张图有61.45个物体、13.97个被遮挡
  2. CAPTURe\(^{\text{synthetic}}\)数据集:

    • 功能:提供完全可控的诊断性评测
    • 核心思路:生成简单图形(圆点、方块)按不同模式排列的图像,系统变化物体数量(5-15)、排列形状(矩形/圆形/三角形)、位置(5种)、颜色(5种)
    • 设计动机:排除背景干扰、纹理变化等混淆因素,精确定位VLM的失败原因
  3. 辅助信息实验(Oracle & Prediction):

    • 功能:通过提供额外信息诊断VLM错误来源
    • 核心思路:(1)All Object Coordinate Oracle:提供所有物体坐标,仅需计数文本坐标;(2)Visible Object Coordinate Oracle:提供可见物体坐标,仍需推断遮挡物体;(3)Inpainting Pipeline:用FLUX.1-Fill修复遮挡区域再送入VLM
    • 设计动机:分离"视觉计数能力"和"世界模型/遮挡推理能力",明确错误根源

评估指标

  • 主指标:sMAPE(对称平均百分比误差),范围0-100%,越低越好
  • \(\text{sMAPE} = 100 \cdot \frac{1}{n}\sum_{i=1}^{n}\frac{|y_i - \hat{y}_i|}{|y_i| + |\hat{y}_i|}\)
  • 无法给出答案的响应按最大误差100%计算

实验关键数据

主实验

模型 CAPTURe\(^{\text{real}}\) 无遮挡 CAPTURe\(^{\text{real}}\) 有遮挡 Δ CAPTURe\(^{\text{syn}}\) 无遮挡 CAPTURe\(^{\text{syn}}\) 有遮挡 Δ
GPT-4o 13.34% 14.75% +1.41 5.90% 9.71% +3.81
InternVL2 26.17% 32.90% +6.73 16.44% 17.57% +1.13
Molmo 25.90% 32.49% +6.59 8.40% 17.73% +9.33
Qwen2VL 18.96% 29.33% +10.37 6.63% 11.74% +5.11
6 VLM平均 21.95% 27.59% +5.64 11.89% 15.64% +3.75
人类 - 3.79% - - 0.92% -

消融实验(辅助信息对CAPTURe\(^{\text{real}}\)遮挡集的影响)

模型 原始遮挡 +所有坐标 +可见坐标 +修复图像
GPT-4o 14.75% 2.93% (-11.82) 9.20% (-5.55) 15.89% (+1.14)
InternVL2 32.90% 17.48% (-15.42) 25.13% (-7.77) 31.12% (-1.78)
Qwen2VL 29.33% 9.62% (-19.71) 17.70% (-11.63) 22.64% (-6.69)
3 VLM平均 25.66% 10.01% (-15.65) 17.34% (-8.32) 23.22% (-2.44)

关键发现

  • 所有VLM在遮挡和非遮挡条件下均存在显著计数误差,且遮挡一致导致性能下降
  • 人类在遮挡条件下误差极低(3.79%/0.92%),VLM表现比人类差7-14倍
  • 提供所有物体坐标后误差大幅下降(平均-15.65%),说明VLM的一大瓶颈是视觉计数本身
  • 图像修复对改善VLM表现效果有限(平均-2.44%),说明扩散模型也不是完美的世界模型
  • 模型能较好识别排列模式(准确率>80%),但在遮挡下准确率下降约11%
  • 遮挡物体数量越多,误差越大;但总物体数量对误差影响较小
  • CountGD(检测模型)在非遮挡条件下远优于VLM,但无法处理遮挡

亮点与洞察

  • 评测设计巧妙:利用模式+遮挡+计数三要素,将世界模型构建能力转化为客观可量化的指标
  • 实验分析深入:通过oracle实验精确分离了"视觉计数"和"遮挡推理"两类错误来源
  • 发现VLM的一个基本弱点:即使在无遮挡条件下,图像中的计数对VLM也是困难任务
  • Hybrid VLM+CountGD系统的尝试表明,将专用检测模型的输出送给VLM可改善表现

局限与展望

  • 仅评测了4-6个VLM,未覆盖最新模型(如GPT-4.5、Gemini等)
  • CAPTURe\(^{\text{real}}\)中的物体多数来自FSC-147,数据多样性受限
  • 答案提取依赖Llama 3.1 8B,虽验证100%准确但增加了流程复杂度
  • 仅考虑了规律排列的物体,未涉及不规则排列场景
  • 遮挡块形状固定为矩形,未考虑不规则遮挡
  • 基准聚焦于"是否能做"而非"如何改进",缺乏针对性的改进方法

相关工作与启发

  • FSC-147:密集计数数据集,CAPTURe\(^{\text{real}}\)的图像来源
  • CountGD:SOTA目标检测计数方法,作为VLM的对比基准
  • SpartQA:空间推理VQA基准,但仅测试可见物体之间的关系
  • FLUX.1-Fill:扩散修复模型,用于提供"预测的世界模型"辅助
  • 启发:VLM评测应更多关注"看不见"的部分(遮挡推理、常识推断),而非仅评测可见信息的处理

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将模态补全计数作为VLM空间推理和世界模型能力的测试,视角独特
  • 实验充分度: ⭐⭐⭐⭐ 多VLM对比+人类基线+Oracle+修复管道+因素分析,实验设计系统全面
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,实验分析层层递进,图表丰富
  • 价值: ⭐⭐⭐⭐ 揭示了VLM在视觉计数和遮挡推理上的根本不足,为改进VLM提供了明确方向