Visual Grounding for Object Questions¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://martin-ev.github.io/vgoq （EPFL × Amazon）
领域: 多模态VLM / 视觉定位
关键词: 视觉定位, 物体问题, 证据分割, 合成数据生成, 轻量模型

一句话总结¶

本文提出为物体问题做视觉定位（VGOQ）这一新任务——不再去框"答案直接在哪"，而是定位"能支撑回答开放式抽象问题的视觉证据/上下文"；作者用两条自动数据生成流水线造出 VizWiz-VGOQ 与 ABO-VGOQ 两个基准，并训练了一个仅 1.77M 参数的轻量 CLIPSeg 风格模型，在 VGOQ 任务上超过 GLaMM/UnifiedIO/OFA 等大模型、可与同期的 Qwen3-VL 抗衡。

研究背景与动机¶

领域现状：传统视觉定位（visual grounding）研究分三类——开放词表分割、指代表达分割（RES，如"左边那辆红车"）、以及 VQA grounding（如 VizWiz-VQA-Grounding、TextVQA-X，给"问题答案在图里哪"做掩码）。这些任务的共同点是：标注的分割掩码本身就是问题的答案，或者就是问题里直接点名的物体。

现有痛点：现实里（尤其电商场景）用户问的往往不是"这是什么牌子"这种照着读就能答的问题，而是"这副耳塞戴着舒不舒服？""这个调料适合低钠饮食的人吗？""这款产品适合素食者吗？"这类开放、抽象、答案并不直接显现在图里的物体问题。要回答它们，需要去找"硅胶耳套""配料表里写的 beef ravioli""salt-free 这个品牌特征"等间接证据——而现有定位模型完全没在这种数据上训练过，也没有对应的基准。

核心矛盾：现有 grounding 任务做的是"语言描述 ↔ 可见图像元素"的直接匹配，而物体问题要求的是"从可见特征推断功能属性"的间接推理（材质识别、空间比例、上下文推断、图文整合、信息图阅读等多种能力）。两者之间隔着一道推理的鸿沟。

本文目标：(1) 形式化定义 VGOQ 这个新问题；(2) 在没有现成数据的情况下造出可训练/可评测的数据；(3) 给出一个能在百万级商品图上实时部署的轻量定位模型。

切入角度：既然缺数据，就用大模型（Claude）+ 传统定位模型把现有资源"改造/合成"成 VGOQ 数据——一条路是把已有视觉问题改写成物体问题（掩码复用为证据），另一条路是从电商商品图+元数据零样本生成问题与证据掩码。

核心 idea：把视觉定位的目标从"分割答案"换成"分割支撑答案的视觉证据"，并用合成数据把这个新任务变得可学、可测、可落地。

方法详解¶

整体框架¶

VGOQ 的输入是一个关于物体的开放式问题 \(q\)、该物体的若干张图像 \((I_i)_{i=1,\dots,j}\) 以及可选文本信息 \(t\)（电商场景下即商品 listing），输出是一组分割掩码 \((V_i)_{i=1,\dots,j}\)，高亮能支撑回答 \(q\) 的视觉证据/上下文：

\[q, t, (I_i)_{i=1,\dots,j} \rightarrow (V_i)_{i=1,\dots,j}\]

当只有单图时退化为 \(q, t, I \rightarrow V\)，这样就能复用现有"只吃一张图"的多模态模型来评测，也让 VGOQ 与传统 VQA grounding（\(q, I \rightarrow V\)）形态对齐；多图时则先按问题相关性给每张图打分、选出最相关的一张再做定位。

整篇方法分三块：两条造数据的流水线（VizWiz-VGOQ 改写式、ABO-VGOQ 零样本生成式）造出训练/评测集，再用这些数据联合训练一个轻量定位模型部署落地。ABO 那条流水线是清晰的六步串行管线，框架图如下：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["商品图 + 元数据<br/>(ABO 数据集)"] --> B["VGOQ 任务定义<br/>问题→证据掩码"]
    B --> C["ABO-VGOQ 零样本流水线<br/>Claude 生成/改写问题"]
    C -->|选最相关图 + 拆解具体视觉元素| D["多模型 grounding<br/>Molmo 指点 + Florence-2 OCR + SAM-2 掩码"]
    D -->|证据质量分级 + 人工校验| E["VizWiz-VGOQ 改写流水线<br/>视觉问题→物体问题"]
    E --> F["轻量定位模型<br/>冻结 CLIP + 1.77M grounding transformer"]
    F --> G["证据分割掩码<br/>+ 相关性分数"]

关键设计¶

1. VGOQ 任务定义：把"分割答案"改成"分割支撑答案的证据"

传统 grounding 之所以在抽象问题上失灵，根子在于任务设定本身——它默认"要找的东西在图里直接可见且就是答案"。本文把任务目标重新定义为：给定开放式物体问题，定位对回答有用的视觉证据或上下文，而非答案本身。比如对"这副耳塞舒不舒服？"，要高亮的是硅胶耳套、缓冲材质这类间接线索，而不是某个直接答案。这一步看似只是换了个目标定义，却把"直接匹配"问题变成了"从可见特征推断功能属性"的推理问题，也正是它让现有 SoTA 在同一批图上从 52.2% gIoU 掉到 37.2%（详见实验），暴露出这是个真问题。论文采用的指标 gIoU 在此定义为"逐样本算 IoU 再求平均"（mean per-sample IoU，⚠️ 与检测里的 generalized IoU 不是一回事，以原文为准）。

2. VizWiz-VGOQ：把视觉问题"反向"改写成物体问题，并用四问给证据分级

第一条数据流水线解决"零数据"困境的办法很巧：现有的 VizWiz-VQA-Grounding 已经有"图像-视觉问题-答案掩码"三元组，作者用 Claude 把视觉问题（如"这是什么糖？→ pecan clusters"）改写成更自然的物体问题（如"对坚果过敏的人能吃这些糖吗？"），此时原来标注 pecan clusters 的那张掩码，含义就从"直接答案"变成了"支撑回答的证据"——同一张掩码、零额外标注，就完成了任务迁移，最终得到 7469 个样本。但改写后掩码与新问题的证据关系强弱不一，作者再用 Claude 问四个 yes-no 问题给每个样本分级：(1) 能否辨认高亮的是什么元素？(2) 高亮区域与问题相关吗？(3) 是否提供了清晰的视觉证据？(4) 是否聚焦于图中具体元素？按这四问逐级判定，把样本分成"无法辨认 / 无价值 / 相关但无视觉证据 / 非特定视觉证据 / 特定视觉证据（SVE）"五档，既支持训练时按质量筛样本，也支持评测时分档报告。

3. ABO-VGOQ：六步零样本流水线，用多模型协同生成证据掩码

VizWiz 那条路复用的是为"直接答案"设计的旧掩码，难免有偏差；第二条路则从 Amazon Berkeley Objects（ABO）的真实商品图+元数据出发，从零生成问题和证据掩码，覆盖电商多图+富元数据场景（1300 个商品、8910 个问题、6769 个证据定位）。六步为：① Claude 模拟购物各阶段生成候选客户问题；② 把初始问题改写成一个抽象问题 + 1~3 个具体问题以增加多样性；③ Claude 对每个 metadata 字段和图像打相关性分（0–1），生成草稿答案并选出最该做定位的那张图；④ 把"问答"细化为图中需要定位的具体视觉元素描述（指明该框区域、点、线、文字区还是整图）；⑤ 多模型协同把这些元素落到像素——Molmo 7B-D 负责指点（在区域内打多个点、给线段端点等）、Florence-2 负责文字区 OCR、SAM-2 负责把点转成分割掩码，这套组合恰好补上了现有定位模型在"线、文字"等商品图常见情形上的短板；⑥ 把每个具体元素的掩码合并成最终掩码，再做证据质量分级（同样四问）并对验证/测试集做人工校验。人工标注走 SageMaker GroundTruth，4 位专家用共识机制复核 Claude 判断（≥3 人同意则保留、≥2 人反对则翻转），人机一致率在 84%–98% 之间，给合成数据兜了质量底。

4. 轻量 CLIPSeg 风格模型：冻结双编码器 + 1.77M grounding transformer + FiLM 多任务

零样本流水线虽然能造数据，但推理时要串起 Claude+Molmo+Florence-2+SAM-2 四个大模型，根本无法在百万级商品上实时跑。作者因此训练一个可直接端到端出掩码的轻量模型：视觉端用冻结的 CLIP ViT 抽多层特征（兼顾低层细节与高层语义，后者对抽象 query 定位很关键），文本端用冻结的 CLIP 文本编码器编码各种输入（物体问题/视觉问题/指代表达），二者送入一个仅 1.77M 可训练参数的 grounding transformer，输出两个头：一个出 \(336\times336\) 的分割热力图，一个出"这张图对该问题有多相关"的相关性分数（正好服务多图选图）。训练用 Dice + 二元交叉熵损失，跨 RES（RefCOCO/+/g）、VQA grounding（VizWiz、TextVQA-X）和两个 VGOQ 数据集做多任务联合训练，并为六类输入类型各用一套 FiLM 条件调制，让单一架构吃下异构 grounding 场景。只训 10000 步（batch 8、lr 0.001，约 RefCOCO 不到一个 epoch），就拿到了超过大模型的 VGOQ 表现；若只在"特定视觉证据"样本上微调，SVE 任务还能再涨 +1.7~+7.4 gIoU。

损失函数 / 训练策略¶

联合损失 = Dice loss + 二元交叉熵（逐像素分割监督）。多任务训练混合 RES（RefCOCO/+/g 共约 32 万三元组）、VQA grounding（VizWiz 6494 + TextVQA-X 14476）、VizWiz-VGOQ 6356、ABO-VGOQ 5068（另含 10713 条"具体视觉元素"中间标注）。10000 步、batch 8、lr 0.001。VGOQ 数据训练时只用"相关于问题"档及以上的样本；可选地在"特定视觉证据"档上微调以提升 SVE 性能。

实验关键数据¶

主实验¶

评测指标 gIoU（逐样本 IoU 取平均，越高越好），并报告"整图均匀分割"作为参考基线。下表摘取"特定视觉证据（SVE）"档的关键对比（gIoU%）。注意 UnifiedIO-XL 那一行最能说明问题：在 同一批 VizWiz 图像 上，输入从视觉问题（VQ，答案可见）换成物体问题（VGOQ）时，性能从 52.2% 直接掉到 37.2%。

模型	参数量	VizWiz-VQA-Ground（VQ，答案可见）	VizWiz-VGOQ val-SVE	ABO-VGOQ val-SVE
Uniform（整图）	0	15.6	15.6	12.9
OFA-Large	470M	17.0	16.5	17.9
GLaMM-FullScope	7B	30.2	28.1	20.2
UnifiedIO-XL	3B	52.2	37.2	12.4
Qwen3-VL-8B-Instruct	8B	47.0	36.0	30.3
本文 LW	1.77M	51.5	47.0	39.5

可以看到：本文 1.77M 的小模型在两个 VGOQ-SVE 基准上都明显领先，在 VizWiz-VGOQ 上甚至比 8B 的 Qwen3-VL 高 11 个点；而 UnifiedIO-XL 这类在 VizWiz 上训练过的大模型一旦换到 ABO（域外）就崩到 12.4%，说明大模型并不能泛化到"找证据"这种与训练分布不同的任务。

数据集与证据质量分布¶

两个合成基准均带证据质量分级，便于按难度评测；下表为规模与"特定视觉证据（SVE）"占比。

数据集	来源	样本数	证据分级	SVE 占比（train）	备注
VizWiz-VGOQ	改写 VizWiz-VQA-Ground	7469	5 档（四问判定）	1446 / 6494	单图、复用旧掩码作证据
ABO-VGOQ	ABO 商品图零样本生成	6571	5 档 + 人工校验	2205 / 5204	多图 + 元数据、人机一致 84–98%

关键发现¶

VQ→VGOQ 的系统性掉点是本文最有力的证据：SoTA 在同批图上从 52.2% 掉到 37.2% gIoU，说明"找证据"确实是个未被解决的新难题，而非旧任务的简单变体。
小模型反超大模型：1.77M 的 LW 在 VGOQ-SVE 上超过 3B/7B/8B 的 UnifiedIO/GLaMM/Qwen3-VL，关键在于它在 VGOQ 数据上专门训练过，而大模型靠零样本 prompt 难以迁移。
大模型不泛化：UnifiedIO-XL 在自己训练过的 VizWiz VQ 上有 52.2%，换到域外 ABO-VGOQ 直接掉到 12.4%（甚至不如整图均匀基线 ×1.0），印证了"填数据/任务空白"的价值。
按证据档微调有效：仅在 SVE 样本上微调可再涨 +1.7~+7.4 gIoU，说明训练数据的证据质量直接影响定位精度。

亮点与洞察¶

"反向改写掩码"是省标注的妙招：把已有 VQA 答案掩码原封不动地复用为"证据掩码"、只改写问题，零额外人力就把旧数据迁到新任务——这个"换问题不换掩码、语义自动转译"的思路可迁移到很多缺标注的新任务上。
用大模型流水线造数据、再蒸馏成小模型部署是很务实的工程范式：训练期用 Claude+Molmo+Florence-2+SAM-2 这套贵但强的组合生成监督，推理期换成 1.77M 的小模型实时跑，兼顾质量与可落地性。
多模型分工补短板：Molmo 指点、Florence-2 OCR、SAM-2 点转掩码，各管一类（区域/文字/点→面），恰好覆盖了单一 grounding 模型在"线和文字"上常失败的情形——这种"按能力拼装"的 grounding 思路值得借鉴。
相关性分数头一举两用：既服务多图场景的选图，又能作为证据可信度的弱信号，设计很简洁。

局限与展望¶

数据是合成而非人工：两个基准都靠自动流水线生成，ABO 掩码缺人工分割的精度、问题分布也未必反映真实用户；作者已用 Claude+专家共识缓解，但"什么算有效证据"本身就主观（例如尺寸只能相对参照物体现时算不算证据）。
VizWiz-VGOQ 的反向构造有偏：复用为"直接答案"设计的旧掩码，可能并非物体问题的最优证据区域；改写后的问题分布也可能偏离自然查询。
管线模型自带偏置：ABO 流水线依赖 Claude/Molmo/SAM-2/Florence-2，会把这些模型的偏置带进数据；且聚焦商品图，向其他域泛化存疑。
轻量模型与 GT 仍有差距：定性结果显示 LW 输出与零样本流水线 GT 之间仍有可见 gap，训练策略、架构、数据规模都有提升空间。
任务边界待厘清：作者自己指出，给"问题类型分类"和"区分直接视觉证据 vs 需外部知识的证据"是重要的后续方向。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 明确提出并形式化"为物体问题做视觉定位（找证据而非找答案）"这一未被探索的任务，并用 VQ→VGOQ 掉点实验证明它是真问题。
实验充分度: ⭐⭐⭐⭐ 在 3 个传统 + 2 个新基准上横扫对比 GLaMM/UnifiedIO/OFA/Qwen3-VL 多档，分档（VQ/SVE/RTQ）报告且带标准误；扣分在于基准为合成、缺大规模真人标注。
写作质量: ⭐⭐⭐⭐⭐ 任务动机、数据流水线六步、模型与训练讲得很清楚，图例（图1/2）把"证据 vs 答案"的差别展示得直观。
价值: ⭐⭐⭐⭐⭐ 电商商品图问答有直接落地价值（购物助手、信息图生成、卖家反馈），轻量模型可规模部署，且开放了评测基准。