GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://groundingme.github.io （项目页）
领域: 多模态VLM
关键词: 视觉定位, MLLM评测基准, 指代表达理解, 拒答能力, 测试时缩放

一句话总结¶

针对现有视觉定位基准已被 MLLM 刷到 90%+ 却仍测不出真实能力的问题，作者构造了 GroundingME——一个含 1005 个样本、覆盖「细粒度判别 / 复杂空间 / 受限可见 / 拒答」四维度的硬基准，发现最强模型也只有 45.1% 准确率、绝大多数模型在拒答任务上得 0%，并给出测试时缩放（+4.5%）和负样本混合训练（拒答 0%→27.9%）两条改进路径。

研究背景与动机¶

领域现状：视觉定位（Visual Grounding / 指代表达理解 REC）是「给一句自然语言描述，在图里框出对应物体」的任务，是机器人指令、图像编辑等下游应用的底座。近两年 MLLM（Qwen3-VL、Gemini-2.5、GLM-4.5V 等）在 RefCOCO 系列上已经刷到 90%+、在 Ref-L4 上接近 90%。

现有痛点：基准饱和不等于模型真会定位。早期基准（RefCOCO）描述太短太简单（平均 3.6 个词），模型靠唯一类名就能「抄近路」蒙对；后续工作（Ref-L4、HC-RefLoCo）虽然把描述写长，但没有真正提升推理复杂度——只要描述里有个独特类名，模型就能跳过细粒度属性和空间推理直接命中。结果是这些基准再也分不出模型的真实定位水平。

核心矛盾：现实世界里人类轻松处理的两类能力，现有基准几乎完全没覆盖。一是密集相似物体下的细粒度辨别 + 复杂空间/数量推理；二是拒答能力——当描述的细节和画面对不上时，应该回答「图里没有这个物体」，而不是硬框一个最像的。后者对安全可靠至关重要，却被所有基准忽视。

本文目标：造一个真正硬、能暴露能力缺口、且带诊断维度的基准，分解为：(1) 系统化覆盖多个挑战维度；(2) 引入拒答样本；(3) 提供细粒度子类用于诊断。

切入角度：与其继续「把描述写长」，不如正交地拆解定位难度的来源，把它归纳成四个互不重叠的挑战维度，每个维度专门攻击模型的一种短板，并用高分辨率、高物体密度的图源（SA-1B + HR-Bench 8K）保证图本身就难。

核心 idea：用「四维挑战分类法 + 半自动构造 + 人工精修」造出 1005 个反捷径样本，把视觉定位从「能不能蒙对」变成「能不能真的逐属性核对、并在对不上时拒答」。

方法详解¶

整体框架¶

GroundingME 本质是一条「图源 → 半自动框标注 → MLLM 生描述 → 人工按四维分类法精修 → 1005 样本基准 → 评测 25 个模型 → 两条改进路径」的构造与诊断流水线。它的输入是 SA-1B / HR-Bench 的原始图片（不带任何 mask/QA，避免数据污染），输出是一个带两级标签（4 个 L-1 维度、12 个 L-2 子类）的硬基准，以及在其上得到的能力缺口诊断和初步改进方案。

整个设计有两层：一层是基准本身怎么造（贡献核心），另一层是造完之后用它发现问题、再给出补救（test-time + train-time）。下面的框架图给出构造与诊断的主链路：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图源<br/>SA-1B + HR-Bench 8K"] --> B["三阶段半自动标注流程<br/>框标注→描述生成→人工精修"]
    C["四维挑战分类法<br/>判别/空间/受限/拒答 + 12子类"] -->|定义精修与采样标准| B
    B --> D["1005 样本基准"]
    D --> E["评测 25 个 MLLM<br/>[email protected]，最强仅 45.1%"]
    E -->|拒答几乎全 0%、整体偏低| F["两条改进路径<br/>测试时缩放 + 数据混合训练"]

关键设计¶

1. 四维挑战分类法：把「定位难」拆成四种正交的失败模式

针对「现有基准靠加长描述但没加真实难度」的痛点，作者不再用「长短」衡量难度，而是按失败原因把挑战拆成四个 L-1 维度，每个专打一种短板：(1) Discriminative（判别）——图里有多个高度相似物体，必须靠细粒度外观差异区分；(2) Spatial（空间）——靠复杂的相对位置/数量关系才能锁定，含 Relationship（定性方位）和 Counting（定量数数）两类；(3) Limited（受限）——目标因遮挡或极小尺寸导致可见特征极少，含 Occlusion 和 Small（来自 HR-Bench 8K）两类；(4) Rejection（拒答）——描述里被故意植入与画面不符的细节，正确答案是「无此物体」。每个 L-1 再细分成 12 个 L-2 子类（如判别/拒答各含 Appearance、Component、Text、State 四子类，各约 50 样本），用于诊断模型到底栽在哪一类。最终 1005 样本分布为判别 204（20.3%）、空间 300（29.9%）、受限 300（29.9%）、拒答 201（20.0%），刻意做成均衡分布。这个分类法是整个基准的骨架——精修和采样都围绕它进行，也是后面诊断分析的坐标轴。

2. 三阶段半自动标注流程：用「机器生成 + 人工把关」造反捷径样本

针对「自动生成数据有噪声、纯人工又造不出量」的矛盾，作者设计了 human-in-the-loop 的三阶段流水线。阶段一·框标注：对 SA-1B 图用自动管线——先 RAM++ 列出图中所有物体类名，再把类名喂给 GroundingDINO 生成候选框（取最高相似 token 所属词作类名），最后用一条定制 NMS去冗余（关键改动：不按面积优先，而是优先保留实例数更多的类，这样能留下「一堆相似物体」的场景，正好喂给判别任务）；对 HR-Bench 的超高清图则因分辨率太高改用人工标框。阶段二·描述生成：用 Gemini-2.5-Flash 生成初版描述——SA-1B 物体用红框 visual prompt 在全图里框出、要求同时写外观和空间关系；HR-Bench 小物体则裁剪出来单独输入、只写外观。阶段三·人工精修：标注员先修框，再按四条标准改写描述——Uniqueness（一句话只指一个物体，拒答样本则不指任何物体）、Subject Clarity（明确点出目标，对复杂空间样本尤其关键）、Task Specificity（描述要贴合子任务，如数数任务加序数词）、Factual Accuracy（修掉幻觉，或为拒答样本故意植入事实错误）。为反捷径还加了硬过滤：删掉实例数 <3 的类、删掉框占图 >50% 的大物体，主体样本选自实例数 >5 的类。50 个随机样本的标注员一致性 Cohen's kappa 为 0.64–0.73（均值 0.69）。

3. 两条改进路径：测试时按思维质量选答案 + 训练时混入负样本

针对评测暴露出的「整体偏低 + 拒答几乎全 0%」，作者给出两条互补的补救。测试时缩放（TTS by thinking quality）：先观察到开启 thinking 普遍涨点（4.7%–7.4%）且能让拒答从「完全不会」变成「有一点」，于是对同一样本用 Qwen3-VL-235B-A22B-Thinking 采 16 条回答（temperature=0.7），再让一个 judge 模型做 Best-of-16 两两对比——专门比较思维轨迹的质量（连贯、逻辑自洽、严格遵循指令），胜者晋级直到剩一条。关键发现：带 CoT 的多模态裁判（Qwen3-VL-A22B）整体 +4.5%；连纯文本裁判（DeepSeek-R1 +2.9%、MiMo-RL +2.2%）也有效，说明「好的思维轨迹」本身就能提分；而剥掉思维轨迹只看最终框，增益掉 2.1%。数据混合训练（Data-Mixture）：假设拒答失败源于训练语料缺负样本，于是在 RefCOCOg 上选 3 万正样本、并改描述造 3 万负样本（RefCOCOg_rej），按负:正 = 1:8 / 1:4 / 1:2 / 1:1 / 2:1 五种比例各采 3 万条微调 Qwen3-VL-8B-Instruct。结果负样本比例越高拒答越强（in-domain 拒答 30.5%→97.3%），仅 8B 模型在 GroundingME 拒答上就从 0% 提到 27.9%，但代价是非拒答任务退化（38.8%→33.0%），说明简单混合学到的拒答不能免费泛化到更难的域外场景。

实验关键数据¶

评测指标为 [email protected]（预测框与真值框 IoU > 0.5 的样本占比）。共测 25 个开源 + 商业模型，参数 2B–235B。

主实验：25 个 MLLM 的整体排行（节选）¶

模型	判别 Avg	空间 Avg	受限 Avg	拒答 Avg	Total
Qwen3-VL-235B-A22B	69.6	49.7	54.0	0.0	45.1
Seed-1.6-Vision	59.8	58.7	42.7	1.0	42.6
Qwen3-VL-32B	75.0	47.3	34.0	0.0	39.5
GLM-4.5V	52.9	42.0	29.3	0.5	32.1
Gemini-2.5-Pro	34.8	34.0	7.0	7.0	20.7
Qwen2.5-VL-72B	48.5	40.3	23.7	3.0	29.6
Phi-4-Multimodal	1.0	0.7	0.0	0.0	0.4

三个核心观察：(1) 能力缺口巨大——最强的 Qwen3-VL-235B-A22B 也只有 45.1%，多数模型落在 10%–40%，部分 <10%；(2) 商业模型不占优——Seed-1.6-Vision（42.6%）紧追最强开源，Gemini-2.5 仅与中游开源相当；(3) 规模是关键变量——同族缩放一致涨点（Qwen3-VL-Dense 2B→32B：21.1%→39.5%；Qwen2.5-VL 7B→72B：15.1%→29.6%）。最刺眼的是拒答列几乎全是 0.0%，且这个失败不随规模缓解。

改进路径消融¶

方法	裁判模型	Total	拒答
Average（16 条均值）	-	49.8	5.7
w/o CoT	Qwen3-VL-A22B	49.6	8.5
w/ CoT	DeepSeek-R1（纯文本）	52.7	15.4
w/ CoT	Qwen3-VL-A22B	54.3	15.9

RefCOCOg 微调（负:正）	Origin	1:8	1:1	2:1
RefCOCOg val（正样本）	88.2	90.4	86.8	83.1
RefCOCOg_rej val（负样本）	30.5	83.5	94.8	97.3
Macro Average	59.4	87.0	90.8	90.2

关键发现¶

拒答是全场最大短板：no-thinking 下几乎所有模型拒答 0%，意味着「描述对不上画面」时模型完全不会说「没有」，只会硬框一个最像的 distractor。开 thinking 后才出现「一点」拒答行为。
思维质量 > 思维有无：TTS 的增益主要来自「挑出更好的思维轨迹」——剥掉 CoT 只看最终框，增益掉 2.1%；甚至纯文本裁判（看不到图）仅凭思维轨迹也能 +2.9%，说明轨迹的逻辑自洽性本身携带正确性信号。
拒答能力不能免费泛化：负样本混合训练让 8B 模型 in-domain 拒答冲到 90%+、GroundingME 拒答 0→27.9%，但同时把非拒答任务从 38.8% 拖到 33.0%——简单混合是「学会拒答」而非「学会真定位」，域外迁移仍是开放问题。
子任务分层清晰：模型普遍最擅长判别、其次空间/受限、拒答最差；空间内 Relationship（定性方位）好于 Counting（定量数数），数数对规模更敏感。

亮点与洞察¶

「拒答」这一维度是真正的杀手锏：把「图里根本没有」纳入评测，一下子让所有声称强推理的 MLLM 露馅（绝大多数 0%）。这揭示了一个被长期忽视的安全隐患——模型默认「描述一定有对应物体」，缺乏对前提的怀疑能力。
定制 NMS 优先保留高实例数类，是个可复用的小 trick：常规 NMS 按面积留框，这里反其道按「类内实例多」留框，专门保住「满图相似物体」的难场景，从数据源头制造判别难度。
用思维轨迹质量做 Best-of-N 选择，比只看最终答案更准，且纯文本裁判就能受益——这暗示「轨迹的逻辑结构」是一种比答案更稠密的监督信号，可迁移到其他需要核对细节的多模态任务。
反污染设计：只用原始图、不用任何已有 mask/QA，即便模型训练时见过 SA-1B 图，任务本身仍是全新的，把「记忆」和「能力」干净分开。

局限与展望¶

规模仍偏小：1005 样本足以诊断但偏小，12 个 L-2 子类每类仅约 50 样本，细分结论的统计噪声较大。
改进方案是「初探」而非「解法」：TTS 需采 16 条 + 大裁判，推理成本高；数据混合训练会牺牲正样本定位精度，且拒答能力域外迁移失败（作者自己承认是 future work 的关键挑战）。
依赖 Gemini-2.5-Flash 生描述：初版描述质量受单一闭源模型风格影响，虽有人工精修，但描述的措辞分布可能隐含该模型偏好。⚠️ 论文未量化这一偏差。
改进方向：拒答能力的可泛化训练（而非简单负样本混合）、把「思维质量评估」从外部大裁判蒸馏进模型自身、扩展到更多图源以验证四维分类法的覆盖度。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 四维正交分类法 + 拒答维度 + 反捷径构造，把饱和的定位评测重新做难，定位精准
实验充分度: ⭐⭐⭐⭐⭐ 25 个模型横扫、12 子类诊断、TTS 与数据混合双路径消融，证据链完整
写作质量: ⭐⭐⭐⭐ 动机清晰、图表自洽；改进部分略偏「初探」，方法深度集中在基准构造侧
价值: ⭐⭐⭐⭐⭐ 暴露 MLLM 拒答能力的系统性缺失，是面向可信视觉系统的实用诊断工具与路线图