跳转至

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

会议: CVPR 2026
arXiv: 2603.09326
代码: https://wwwtttjjj.github.io/OddGridBench/
领域: 多模态VLM
关键词: 视觉差异感知, benchmark, GRPO, 课程学习, 细粒度感知

一句话总结

提出 OddGridBench 评估 MLLM 的细粒度视觉差异感知能力(找出网格中与其他元素在颜色/大小/旋转/位置上不同的那个),发现所有 MLLM 远低于人类水平,进而提出 OddGrid-GRPO(课程学习 + 距离感知奖励)显著提升模型的视觉辨别力。

研究背景与动机

领域现状:MLLM 在高层语义理解(图像描述、VQA、数学推理等)上表现出色,但对底层视觉感知的评估和研究不足。

现有痛点:现有 benchmark 主要关注高层语义推理,忽视了人类视觉系统中非常基础的能力——细粒度视觉差异感知(Just Noticeable Difference / Pop-out Effect)。这种底层感知是空间推理、物体理解的前提。

核心矛盾:没有系统化、可控的 benchmark 来量化评估 MLLM 在不同感知维度(颜色、大小、旋转、位置)上的敏感度,也缺乏针对性的训练方法来弥补这一短板。

本文目标:(1) 构建可控的细粒度视觉差异感知 benchmark;(2) 揭示 MLLM 在此任务上的系统性失败模式;(3) 提出训练方法提升感知能力。

切入角度:借鉴认知心理学的 Odd-One-Out 范式,构建参数化控制的网格图像,精确量化差异程度。

核心idea:用参数化的网格图像(单元素在颜色/大小/旋转/位置上有细微差异)构建 benchmark,结合课程学习和距离感知奖励的 GRPO 来提升 MLLM 的感知敏感度。

方法详解

整体框架

这篇论文做两件事:先造一个能精确控制差异幅度的评测集 OddGridBench,把 MLLM 在「找不同」上的短板量化出来;再用 OddGrid-GRPO 把模型练上去。OddGridBench 借的是认知心理学里的 Odd-One-Out 范式——给一张网格图,里面绝大多数图标一模一样,只有一个在颜色、大小、旋转或位置上有细微差异,模型要把那个「异类」点出来。因为整张图是参数化生成的,差异幅度可以从「几乎察觉不到」连续调到「一眼能看出」,于是能像心理物理实验那样画出模型的感知敏感度曲线。训练侧则把这批数据按难度排好序喂给 GRPO,并把「点得准不准」从对/错的二元判断换成随距离平滑衰减的连续奖励。

整条 pipeline 是「数据构建 → 课程训练」两段串联:前半段把网格图从图标一路参数化造出来并切分,后半段把这批数据按难度排序、用改造过奖励的 GRPO 训练模型。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph BENCH["OddGridBench:参数化生成可控差异网格图"]
        direction TB
        A["收集 SVG 图标<br/>人造 / 自然 / 符号三类"] --> B["参数化网格布局<br/>5–9 行列,每格 60–80px"]
        B --> C["注入受控差异<br/>颜色 ΔE / 大小 / 旋转 / 位置 + 多属性组合"]
        C --> D["切分数据<br/>1400 测试 + 400 验证 + 30000 训练"]
    end
    D --> E["课程学习<br/>难度分→Easy 15K / Medium 10K / Hard 5K 三阶段"]
    E --> F["距离感知奖励 GRPO<br/>r_d 随距离平滑衰减 + 格式奖励混合"]
    F --> G["提升 MLLM 的细粒度视觉辨别力"]

关键设计

1. OddGridBench:参数化生成可控差异的网格图

整套评测的关键在于差异能被精确量化,而不是凭感觉标「难/易」。作者从 IconFont 和 Material Design Icons 收集 SVG 图标(分人造物、自然、符号三类,SVG 保证缩放旋转后分辨率无关),铺成 5–9 行列、每个 60–80px 的网格,然后只在其中一个单元上注入受控扰动。四个维度各有明确的物理刻度:颜色用 CIE-Lab 色差 \(\Delta E \in [5,20]\)、大小缩放 85%–115%、旋转 \(\pm5°\)\(\pm25°\)、位置偏移 5%–12%。差异还能叠加成 2-Type / 3-Type / 4-Type 的多属性组合,最终切成 1400 测试 + 400 验证 + 30000 训练。这样的设计让「差异从不可察觉过渡到显著」成为一个连续轴,是传统离散难度标注的 benchmark 做不到的。

2. 课程学习:按连续难度先易后难,避免 RL 早崩

直接把模型扔进困难样本里跑 GRPO 很容易不稳定——奖励稀疏、梯度噪声大,训练会过早收敛到瞎猜。作者给每个样本算一个连续难度分数,由网格大小、叠加的属性数量、扰动幅度三者综合决定,再据此切成 Easy(15K) / Medium(10K) / Hard(5K) 三档,分三阶段渐进训练。先在容易的样本上让模型建立起「找不同」的基本能力,再逐步加码到难样本,整个过程模拟的是人类感知能力由粗到细的发展轨迹。

3. 距离感知奖励:把空间邻近性写进奖励信号

标准 GRPO 对定位类任务用二元奖励(点对了给 1、点错了给 0),但这对「找位置」很浪费——点到目标隔壁格和点到对角线另一头,得到的反馈一样是 0,模型学不到「越靠近越好」。作者把奖励换成随欧几里得距离平滑衰减的形式:

\[r_d = \max\!\big(\exp(-d^2/2\sigma^2) - \beta,\, 0\big)\]

其中 \(d\) 是预测位置到真实异类位置的距离,\(\sigma\) 随网格大小自适应缩放(大网格容差更大),\(\beta\) 是一个阈值用来把太远的预测奖励直接压到 0、避免给离谱的猜测发糖。最终奖励再和格式奖励 \(r_f\) 加权混合:\(r_{overall} = (1-\omega)r_d + \omega r_f\)。比起二元奖励,这个连续信号让「差一点」和「差很多」有了区分度,监督密度更高,这套思路也能迁移到其他需要空间定位的 VLM 任务。

损失函数 / 训练策略

整体是基于 GRPO 的强化学习,训练目标即上面的总奖励 \(r_{overall}\),配合三阶段课程调度逐档加难,无监督微调阶段。

实验关键数据

主实验

模型 Color Size Rotation Position Total
Random 2.00 2.00 2.00 2.00 2.43
Qwen3-VL-32B 85.00 39.50 52.50 39.00 68.07
Gemini-2.5-Pro 82.50 9.50 26.00 6.50 49.29
GPT-5 56.50 9.50 21.00 5.00 28.93
Human 91.33 69.33 82.67 78.00 87.47

关键发现

观察 说明
颜色维度最易 多数模型在颜色差异上表现最好,但仍远低于人类
位置/大小最难 几乎所有模型在位置和大小感知上接近随机
人类vs最强MLLM 人类 87.47% vs Qwen3-VL-32B 68.07%,差距近20%
模型规模效应 同系列大模型比小模型好,但提升有限

关键发现

  • 颜色是 MLLM 最敏感的维度,大小和位置最弱,说明 MLLM 的视觉编码器在空间几何感知上存在根本性缺陷
  • OddGrid-GRPO 中课程学习和距离感知奖励都有明显贡献,去掉任一组件都会掉点
  • 差异幅度越大,准确率越高,呈单调递增趋势,符合人类感知的心理物理规律

亮点与洞察

  • 参数化控制的 benchmark 设计:类比心理物理学实验,可以精确控制每个感知维度的差异幅度,实现从"不可察觉"到"显著"的连续过渡,这是传统 benchmark 做不到的
  • 距离感知奖励:将空间邻近性编码到 RL 奖励中,比二元奖励提供更丰富的学习信号,这一设计可迁移到其他需要空间定位的 VLM 任务
  • 暴露了 MLLM 的根本短板:GPT-5 在位置感知上仅 5%,几乎是随机水平,说明当前视觉编码器在底层感知上严重不足

局限与展望

  • Benchmark 仅用合成 SVG 图标,未涉及自然图像中的细粒度差异检测
  • 仅评估了单图场景,实际应用中需要在复杂背景下检测差异
  • OddGrid-GRPO 的效果主要在该 benchmark 上验证,在其他细粒度视觉任务上的迁移性待考察
  • 训练数据量(30K)相对较小,扩大规模可能进一步提升

相关工作与启发

  • vs 传统 Odd-One-Out:传统方法针对视觉编码器设计,不适用于 MLLM 架构;本文首次为 MLLM 设计系统化的感知差异评估
  • vs GRPO (DeepSeek-V3):标准 GRPO 用二元奖励,本文扩展为连续的距离感知奖励,提供更细粒度的空间监督信号

补充分析

  • OddGrid-GRPO 的三阶段训练对应样本数 15K→15K(5K easy+10K medium)→15K(10K easy/medium+5K hard),总训练量固定为 30K
  • 网格图像中图标均为 SVG 格式,保证了缩放/旋转的分辨率无关性
  • 4-Type 组合任务中人类准确率高达 97.67%,而 GPT-5 仅 46.00%,差距超过 50%,是所有条件中差距最大的
  • 该 benchmark 的生成代码开源,可以自由定制新的差异维度(如纹理、透明度等)
  • 论文还发现标注 grid 标签后(LabeledAcc),模型准确率大幅提升,说明问题不完全在视觉感知,也在空间推理和索引理解上

评分

  • 新颖性: ⭐⭐⭐⭐ Benchmark 设计巧妙,暴露了重要问题
  • 实验充分度: ⭐⭐⭐⭐ 19个模型评估,分析深入
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表精美
  • 价值: ⭐⭐⭐⭐ 揭示了MLLM底层感知的系统性缺陷