OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models¶

会议: CVPR 2026
arXiv: 2603.09326
代码: https://wwwtttjjj.github.io/OddGridBench/
领域: 多模态VLM
关键词: 视觉差异感知, benchmark, GRPO, 课程学习, 细粒度感知

一句话总结¶

提出 OddGridBench 评估 MLLM 的细粒度视觉差异感知能力（找出网格中与其他元素在颜色/大小/旋转/位置上不同的那个），发现所有 MLLM 远低于人类水平，进而提出 OddGrid-GRPO（课程学习 + 距离感知奖励）显著提升模型的视觉辨别力。

研究背景与动机¶

领域现状：MLLM 在高层语义理解（图像描述、VQA、数学推理等）上表现出色，但对底层视觉感知的评估和研究不足。

现有痛点：现有 benchmark 主要关注高层语义推理，忽视了人类视觉系统中非常基础的能力——细粒度视觉差异感知（Just Noticeable Difference / Pop-out Effect）。这种底层感知是空间推理、物体理解的前提。

核心矛盾：没有系统化、可控的 benchmark 来量化评估 MLLM 在不同感知维度（颜色、大小、旋转、位置）上的敏感度，也缺乏针对性的训练方法来弥补这一短板。

本文目标：(1) 构建可控的细粒度视觉差异感知 benchmark；(2) 揭示 MLLM 在此任务上的系统性失败模式；(3) 提出训练方法提升感知能力。

切入角度：借鉴认知心理学的 Odd-One-Out 范式，构建参数化控制的网格图像，精确量化差异程度。

核心idea：用参数化的网格图像（单元素在颜色/大小/旋转/位置上有细微差异）构建 benchmark，结合课程学习和距离感知奖励的 GRPO 来提升 MLLM 的感知敏感度。

方法详解¶

整体框架¶

这篇论文做两件事：先造一个能精确控制差异幅度的评测集 OddGridBench，把 MLLM 在「找不同」上的短板量化出来；再用 OddGrid-GRPO 把模型练上去。OddGridBench 借的是认知心理学里的 Odd-One-Out 范式——给一张网格图，里面绝大多数图标一模一样，只有一个在颜色、大小、旋转或位置上有细微差异，模型要把那个「异类」点出来。因为整张图是参数化生成的，差异幅度可以从「几乎察觉不到」连续调到「一眼能看出」，于是能像心理物理实验那样画出模型的感知敏感度曲线。训练侧则把这批数据按难度排好序喂给 GRPO，并把「点得准不准」从对/错的二元判断换成随距离平滑衰减的连续奖励。

整条 pipeline 是「数据构建 → 课程训练」两段串联：前半段把网格图从图标一路参数化造出来并切分，后半段把这批数据按难度排序、用改造过奖励的 GRPO 训练模型。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph BENCH["OddGridBench：参数化生成可控差异网格图"]
        direction TB
        A["收集 SVG 图标<br/>人造 / 自然 / 符号三类"] --> B["参数化网格布局<br/>5–9 行列，每格 60–80px"]
        B --> C["注入受控差异<br/>颜色 ΔE / 大小 / 旋转 / 位置 + 多属性组合"]
        C --> D["切分数据<br/>1400 测试 + 400 验证 + 30000 训练"]
    end
    D --> E["课程学习<br/>难度分→Easy 15K / Medium 10K / Hard 5K 三阶段"]
    E --> F["距离感知奖励 GRPO<br/>r_d 随距离平滑衰减 + 格式奖励混合"]
    F --> G["提升 MLLM 的细粒度视觉辨别力"]

关键设计¶

1. OddGridBench：参数化生成可控差异的网格图

整套评测的关键在于差异能被精确量化，而不是凭感觉标「难/易」。作者从 IconFont 和 Material Design Icons 收集 SVG 图标（分人造物、自然、符号三类，SVG 保证缩放旋转后分辨率无关），铺成 5–9 行列、每个 60–80px 的网格，然后只在其中一个单元上注入受控扰动。四个维度各有明确的物理刻度：颜色用 CIE-Lab 色差 \(\Delta E \in [5,20]\)、大小缩放 85%–115%、旋转 \(\pm5°\) 到 \(\pm25°\)、位置偏移 5%–12%。差异还能叠加成 2-Type / 3-Type / 4-Type 的多属性组合，最终切成 1400 测试 + 400 验证 + 30000 训练。这样的设计让「差异从不可察觉过渡到显著」成为一个连续轴，是传统离散难度标注的 benchmark 做不到的。

2. 课程学习：按连续难度先易后难，避免 RL 早崩

直接把模型扔进困难样本里跑 GRPO 很容易不稳定——奖励稀疏、梯度噪声大，训练会过早收敛到瞎猜。作者给每个样本算一个连续难度分数，由网格大小、叠加的属性数量、扰动幅度三者综合决定，再据此切成 Easy(15K) / Medium(10K) / Hard(5K) 三档，分三阶段渐进训练。先在容易的样本上让模型建立起「找不同」的基本能力，再逐步加码到难样本，整个过程模拟的是人类感知能力由粗到细的发展轨迹。

3. 距离感知奖励：把空间邻近性写进奖励信号

标准 GRPO 对定位类任务用二元奖励（点对了给 1、点错了给 0），但这对「找位置」很浪费——点到目标隔壁格和点到对角线另一头，得到的反馈一样是 0，模型学不到「越靠近越好」。作者把奖励换成随欧几里得距离平滑衰减的形式：

\[r_d = \max\!\big(\exp(-d^2/2\sigma^2) - \beta,\, 0\big)\]

其中 \(d\) 是预测位置到真实异类位置的距离，\(\sigma\) 随网格大小自适应缩放（大网格容差更大），\(\beta\) 是一个阈值用来把太远的预测奖励直接压到 0、避免给离谱的猜测发糖。最终奖励再和格式奖励 \(r_f\) 加权混合：\(r_{overall} = (1-\omega)r_d + \omega r_f\)。比起二元奖励，这个连续信号让「差一点」和「差很多」有了区分度，监督密度更高，这套思路也能迁移到其他需要空间定位的 VLM 任务。

损失函数 / 训练策略¶

整体是基于 GRPO 的强化学习，训练目标即上面的总奖励 \(r_{overall}\)，配合三阶段课程调度逐档加难，无监督微调阶段。

实验关键数据¶

主实验¶

模型	Color	Size	Rotation	Position	Total
Random	2.00	2.00	2.00	2.00	2.43
Qwen3-VL-32B	85.00	39.50	52.50	39.00	68.07
Gemini-2.5-Pro	82.50	9.50	26.00	6.50	49.29
GPT-5	56.50	9.50	21.00	5.00	28.93
Human	91.33	69.33	82.67	78.00	87.47

关键发现¶

观察	说明
颜色维度最易	多数模型在颜色差异上表现最好，但仍远低于人类
位置/大小最难	几乎所有模型在位置和大小感知上接近随机
人类vs最强MLLM	人类 87.47% vs Qwen3-VL-32B 68.07%，差距近20%
模型规模效应	同系列大模型比小模型好，但提升有限

关键发现¶

颜色是 MLLM 最敏感的维度，大小和位置最弱，说明 MLLM 的视觉编码器在空间几何感知上存在根本性缺陷
OddGrid-GRPO 中课程学习和距离感知奖励都有明显贡献，去掉任一组件都会掉点
差异幅度越大，准确率越高，呈单调递增趋势，符合人类感知的心理物理规律

亮点与洞察¶

参数化控制的 benchmark 设计：类比心理物理学实验，可以精确控制每个感知维度的差异幅度，实现从"不可察觉"到"显著"的连续过渡，这是传统 benchmark 做不到的
距离感知奖励：将空间邻近性编码到 RL 奖励中，比二元奖励提供更丰富的学习信号，这一设计可迁移到其他需要空间定位的 VLM 任务
暴露了 MLLM 的根本短板：GPT-5 在位置感知上仅 5%，几乎是随机水平，说明当前视觉编码器在底层感知上严重不足

局限与展望¶

Benchmark 仅用合成 SVG 图标，未涉及自然图像中的细粒度差异检测
仅评估了单图场景，实际应用中需要在复杂背景下检测差异
OddGrid-GRPO 的效果主要在该 benchmark 上验证，在其他细粒度视觉任务上的迁移性待考察
训练数据量（30K）相对较小，扩大规模可能进一步提升

补充分析¶

OddGrid-GRPO 的三阶段训练对应样本数 15K→15K(5K easy+10K medium)→15K(10K easy/medium+5K hard)，总训练量固定为 30K
网格图像中图标均为 SVG 格式，保证了缩放/旋转的分辨率无关性
4-Type 组合任务中人类准确率高达 97.67%，而 GPT-5 仅 46.00%，差距超过 50%，是所有条件中差距最大的
该 benchmark 的生成代码开源，可以自由定制新的差异维度（如纹理、透明度等）
论文还发现标注 grid 标签后（LabeledAcc），模型准确率大幅提升，说明问题不完全在视觉感知，也在空间推理和索引理解上

评分¶

新颖性: ⭐⭐⭐⭐ Benchmark 设计巧妙，暴露了重要问题
实验充分度: ⭐⭐⭐⭐ 19个模型评估，分析深入
写作质量: ⭐⭐⭐⭐ 逻辑清晰，图表精美
价值: ⭐⭐⭐⭐ 揭示了MLLM底层感知的系统性缺陷

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

关键发现¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

补充分析¶

评分¶

相关论文¶