跳转至

VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes

会议: CVPR 2026
arXiv: 2509.25339
代码: https://paulgavrikov.github.io/visualoverload (评测服务器 + 私有真值)
领域: 多模态VLM
关键词: VQA benchmark, 密集场景, 细粒度感知, 计数/OCR, 逻辑一致性

一句话总结

本文用 150 张超 4K 分辨率、人物动作高度密集的公版名画构建了 VisualOverload——一个含 2720 道人工标注问答、真值私有的 VQA benchmark,专门测 VLM 在"视觉过载"场景下的基础感知(活动/属性/计数/OCR/推理/场景分类),结果 37 个模型里最强的 o3 在最难子集上也只有 19.6% 准确率,说明"基础视觉理解已被解决"是个错觉。

研究背景与动机

领域现状:VQA 早已成为衡量 VLM 图像理解能力的通用标尺,近年 SOTA 模型在 SeedBench、MMVet 等经典 benchmark 上分数逼近饱和,给人一种"基础视觉理解已经被解决"的印象,于是社区把评测重心转向了领域专业知识(如 MMMU 的专家级推理)。

现有痛点:但这些分数高估了模型的真实感知能力。主流 benchmark 要么用低分辨率图、只考前景的全局理解(global scene understanding),要么即便用高分辨率,也只是做"大海捞针"式的小目标检索(needle-in-a-haystack)——也就是在一张大图里找一个孤立的小细节。这两类都没逼模型去消化"整张图同时塞满信息"的复杂度,因此测不出真实世界里(安全攸关的应用依赖细粒度感知)会暴露的短板。

核心矛盾:作者把瓶颈定位在视觉表征与多模态对齐上。视觉编码器的本职是把空间信息压缩进语义空间,经验风险最小化只鼓励保留"训练时常见、对任务有用"的特征——这天然给细粒度感知设了一个上界。当一个场景密集到信息量超过编码器的"带宽"时(随机噪声是极端例子),模型必然丢细节。

本文目标:造一个专门在"密集 + 高分辨率"场景下、用无需专业知识的基础视觉任务来压力测试 VLM 的 benchmark,并量化模型在压力下到底掉到什么程度、以什么方式失败。

切入角度:用人物/动作/支线高度密集的公版名画作为天然的"视觉过载"图源——这些画作本就是为了让人眼花缭乱、需要长时间凝视才能看全细节而创作的,且全部公版(原作者去世超 100 年),既新鲜(不会泄漏进预训练语料)又无版权风险。

核心 idea:不考新知识、不考难题型,只用人人都觉得"简单"的基础视觉任务,但把它们放进密集到让模型"喘不过气"的场景里,看 SOTA VLM 会不会原形毕露。

方法详解

整体框架

这是一篇纯 benchmark 论文,没有训练新模型,核心产出是数据集本身和一套防作弊的评测协议。整条 pipeline 是:从 Google Arts & Culture 收 150 张公版名画 → 统一降采样到 4K → 6 名标注者按 6 类任务手工出题(约每图 18 题,含多选/二元/自由形式三种答案格式,二元题成对出"逻辑相反"问题)→ 用 37 个 VLM 跑一遍做质量控制(剔除"盲答"也能答对的语言偏差题)→ 按全体模型的答对率把题目切成 easy/medium/hard 三档 → 真值私有,只放评测服务器打分。

关键设计

1. 视觉过载图源:用密集名画把"信息带宽"打满

针对前面"现有 benchmark 测不出密集场景下的崩溃"这个痛点,作者刻意选了人物、动作、同时展开的支线叙事填满整幅、背景还极其精细的名画。这类图天然超 4K(多数 ≥ 3840×2160),统一降采样到最接近 4K 的像素数、保持长宽比(28 张原本就低于 4K 的不动,但都保持在 Full HD 以上)。和"大海捞针"式高分辨率 benchmark 的本质区别在于:后者只考一个孤立小细节的检索,而 VisualOverload 要求模型同时消化整幅画的丰富度——这正好对准了编码器"压缩即丢信息"的上界假设。全部公版还顺带解决了泄漏(fresh data,不在预训练语料里)和版权两个问题。

2. 六类基础任务 + 三种答案格式:只考感知,不考知识

题目覆盖六个基础视觉任务:活动识别(N=150)、属性识别(N=149,主要问颜色,常带空间约束如"最左边那艘船旗的颜色")、计数(N=559)、OCR(N=118,含英/拉丁/中/荷/希腊语)、推理(N=356,需要 chain-of-thought,如"要到右边两座风车得不得过水?")、场景分类(N=1388,浅层理解,预期人人都会)。答案格式分多选(4 选 1 或二元 yes/no)和自由形式;计数和 OCR 故意用自由形式(不给选项)以提高难度。所有题都强制"必须看图才能答、不能靠文字先验",且只问能从画面直接观察或合理推断的内容,排除主观解读和需要专家知识的题——这样把"基础感知"从"懂艺术史"里干净地剥离出来。

3. 逻辑相反配对题:低成本探测捷径与不一致

每道二元 yes/no 题都配一道逻辑相反题(如"是白天吗?"配"是夜晚吗?")。这一招有双重作用:一是把二元题的随机猜测基线从 50% 拉低(成对计分,两题都对才算对,否则算错,即 pair-wise accuracy),二是直接提供了一个测逻辑一致性的信号——一个强模型即便答错,也该在相反题上保持逻辑一致(说了"是白天"就该否认"是夜晚")。这把"模型是真在看图推理还是在走捷径瞎猜"变成了可量化的指标。

4. 私有真值 + 盲答质控:堵住泄漏与语言偏差两个漏洞

为防止 benchmark 被后续 VLM 的训练数据吃掉,真值全程私有,只公开图和问题,靠评测服务器打分并按用户/天限速(防真值提取攻击),也不放开发集(因为任务不需要任何 finetune)。语言偏差方面:先用 3 个最强开源模型(InternVL3-38B、Qwen2.5-VL 32B、LLaVA-OV 72B)做盲答(ablate 掉图、只看文字),找出不看图也能答对的题,再让 Gemini 2.5 Pro 检测每题的语言偏差并剔除严重者(如正确答案明显是异类、或被问题语境暗示)。质控后多数任务的盲答性能降到接近随机;属性识别和计数仍略高于随机,但那来自真值分布的统计规律(如小数目更常见)这类无法消除、也不构成可泛化捷径的先验。

5. 按模型答对率切难度档:让"难"有客观定义

难度不靠人主观判断,而是用全体 37 个模型对每道题的答对率来切:答对率落在 \([0,20]\) 为 hard,\((20,90)\) 为 medium,\([90,100]\) 为 easy。这样 easy/medium/hard 三档是被"机器的实际表现"校准出来的,hard 档天然是"几乎所有模型都做不对"的题,能把最强模型逼到角落里(o3 在 hard 档仅 19.6%)。

实验关键数据

主实验

评测 37 个 VLM(开源 450M–109B,分小/中/大三个参数段 + 专用高分辨率模型 + 4 个闭源前沿模型),贪心解码(闭源和贪心失效的如 Llama 4 用采样)。准确率定义为答案与真值精确匹配;计数额外报 RMSE,OCR 额外报归一化 Levenshtein 编辑距离。

模型 参数(B) 计数 OCR 推理 场景 Hard Total
随机基线 - 0.0 0.0 25.0 25.0 3.7 16.0
一致猜测基线 - 0.0 0.0 42.5 50.0 4.7 27.2
o3(最强闭源) 36.7 61.0 75.1 94.7 19.6 69.5
o4-mini 38.3 62.7 67.8 93.7 17.2 69.1
Gemini 2.0 Flash 41.7 57.6 56.6 92.1 19.1 68.1
InternVL3 38B(最强开源) 38 35.4 45.8 69.8 92.2 7.2 67.6
InternVL3 8B 8 32.2 42.4 59.0 93.4 7.9 63.9
Qwen2.5-VL 72B 72 35.1 72.9 53.2 90.5 13.4 65.7
LLaVA 1.5 7B 7 13.2 3.4 39.5 43.2 1.9 30.8

关键现象:

  • 计数全军覆没:最好的 Gemini 2.0 Flash 也只有 41.7%,多数模型在 13–35% 之间,连"场景里有几只动物"这种题都答不准。
  • OCR 闭源/开源分化最大:最好 o4-mini 62.7%,但 LLaVA 系列低到个位数(3.4%);Qwen2.5-VL 72B 在 OCR 上意外强(72.9%)。
  • 推理逼近一致猜测基线:几乎所有模型在推理任务上相比"一致猜测基线"(42.5%)提升很小,部分小模型甚至更差;唯一正向离群是 o3(75.1%),作者归因于它的推理模式。
  • 场景分类是唯一好做的:8B 参数就够拿 93.4%,因为它只靠浅层全局理解——这恰好印证了现有 benchmark 高估能力的根源。
  • 反直觉缩放:性能不总随参数增大而提升,InternVL3、PaliGemma 2 的最大号反而掉点;专用高分辨率模型(VILA HD、ILM-XC2-4KHD)显著弱于同尺寸常规模型,因为现代 VLM 普遍已用 AnyRes 等支持高分辨率,性能更依赖 backbone 和训练而非"专为高分辨率设计"。

误差分析

失败维度 关键量化结果 说明
计数 10% 容差下平均仅 +1.6% 真值越大错得越狠;多为拒答(记 0)或"太多数不清",普遍低估
OCR 错误样本归一化编辑距离质心 ≈ 0.7 错得很离谱;三大成因:幻觉、抽到无关文字、不遵守"只输出文字"指令;低距离错误常是模型把生僻词"自动纠正"成高频词(如 accidunt→accident)
逻辑一致性 场景题 83.3% → 推理题 60.6% 题一难,一致性骤降到接近随机,说明模型在"复杂题"上脱离视觉输入独立瞎猜;个别(PaliGemma2 3B)甚至低于随机,即靠捷径

关键发现

  • 掉点最狠的是计数和细粒度 OCR:这两个任务不能靠"全局印象"蒙混,必须真正逐个数、逐字读,最暴露编码器的细粒度感知上界。
  • 场景分类好 ≠ 真懂图:模型在浅层全局任务上表现亮眼,却在同一张图的细粒度题上崩溃,正好坐实"现有 benchmark 高估能力"的假设。
  • 逻辑不一致暴露捷径依赖:成对题揭示模型在难题上准确率甚至跌破随机/一致猜测基线,说明它们靠的是 shortcut 而非稳健推理。

消融实验要点

本文是 benchmark 论文,没有传统意义上的模型消融,但有几项验证设计有效性的分析:

分析 配置 结论
盲答质控 ablate 图、只看文字 质控后多数任务盲答降到接近随机,证明题目确实"必须看图";属性/计数残留的高于随机来自不可消除的分布先验,非可泛化捷径
计数容差 10% / 50% / 100% 容差 10% 容差只救回 1.6%,说明错误是"量级级"的严重错,不是差一两个;大容差虽提升明显但对真实应用无意义
高分辨率消融 不同分辨率下跑 VisualOverload(附录 D) 验证密集场景是真瓶颈,而非单纯分辨率问题

亮点与洞察

  • 用名画当"压力测试图"很聪明:密集名画是为"让人眼花缭乱"而生的天然过载场景,且公版无版权、新鲜不泄漏,一举解决图源、泄漏、版权三个问题——这个图源选择本身就是核心创新。
  • 逻辑相反配对题是低成本高信号的设计:一道题的成本配出"降随机基线 + 测逻辑一致性"两个用途,把"模型是真看图还是走捷径"变成可量化指标,这个 trick 可直接迁移到任何含二元判断的 benchmark。
  • 难度档由模型答对率校准:避免了人主观定难度,让 hard 档天然是"机器集体做不对"的题,比拍脑袋分难度更有说服力。
  • 最让人"啊哈"的是场景分类与细粒度的割裂:同一张图,8B 模型场景分类 93%、最强模型计数却 < 42%,直接证明"基础视觉理解已解决"是评测口径造成的错觉。
  • 专用高分辨率模型反而更差这一反直觉结论,提醒社区高分辨率能力现在更取决于 backbone/训练而非专门架构。

局限性 / 可改进方向

  • 作者承认:数据全是艺术作品,结论未必直接迁移到自然图像——艺术表达常强调抽象而非写实,风格方差大、依赖全局形状。作者把这当"特性而非缺陷"(真正的基础模型应当像人一样鲁棒地理解各种表征),但这对结论的外推性确实是个 caveat。
  • 横向比较需谨慎:不同任务难度、随机基线不同(计数/OCR 假设无先验 0%,多选 25%),各任务的绝对分数不可直接比大小;闭源模型用采样、开源用贪心,解码策略不完全一致。
  • 只测了"模型答得对不对":误差分析靠全体模型的平均统计(为保护私有真值),无法对单个模型做细粒度的逐题归因;也没探究"换 prompt / 加 CoT / 切图分块"等缓解手段能救回多少,作者把这留给社区在 leaderboard 上探索。
  • 改进思路:把同款"密集场景压力测试"协议迁到自然图像、文档、视频上,验证瓶颈是否普遍;或据此设计专门强化细粒度感知的训练目标(如局部 patch 重建/计数预训练)。

相关工作与启发

  • vs 经典 VQA(VQA、SeedBench、MMVet): 它们多用低分辨率图考全局理解、题目常自动生成易引入偏差且趋于饱和;本文用高分辨率密集名画 + 全人工标注 + 私有真值,把"看起来已解决"的基础任务重新做难,揭示分数饱和背后的真实短板。
  • vs 高分辨率"大海捞针"benchmark(如 VILA HD 用的 4K 检索类): 它们在大图里检索一个孤立小细节;本文要求模型同时消化整幅画的复杂度,对准的是编码器"压缩即丢信息"的带宽上界而非单点检索。
  • vs MMMU 等专家知识 benchmark: MMMU 往"专家级知识 + 推理"走;本文反其道,刻意只考无需任何专业知识的基础感知,证明连这一层都远未解决——说明问题不在知识而在感知。
  • vs 既往艺术 VQA(VISCOUNTH 等): 那些需要文化/艺术史专家知识;本文明确排除专家知识,只用名画当"密集图源",目标是纯视觉理解而非懂艺术。

评分

  • 新颖性: ⭐⭐⭐⭐ 图源选择(密集公版名画)和逻辑配对题设计巧妙,但本质仍是一个 benchmark 论文。
  • 实验充分度: ⭐⭐⭐⭐⭐ 37 个模型全谱系覆盖 + 计数/OCR/逻辑一致性三维误差分析 + 盲答/容差/分辨率多项验证,非常扎实。
  • 写作质量: ⭐⭐⭐⭐ 动机推导清晰、结论有力;表格信息密但可读。
  • 价值: ⭐⭐⭐⭐⭐ 戳破"基础视觉已解决"的错觉,私有真值 + 评测服务器防泄漏,是社区急需的耐用资源。