VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes¶

会议: CVPR 2026
arXiv: 2509.25339
代码: https://paulgavrikov.github.io/visualoverload (评测服务器 + 私有真值)
领域: 多模态VLM
关键词: VQA benchmark, 密集场景, 细粒度感知, 计数/OCR, 逻辑一致性

一句话总结¶

本文用 150 张超 4K 分辨率、人物动作高度密集的公版名画构建了 VisualOverload——一个含 2720 道人工标注问答、真值私有的 VQA benchmark，专门测 VLM 在"视觉过载"场景下的基础感知（活动/属性/计数/OCR/推理/场景分类），结果 37 个模型里最强的 o3 在最难子集上也只有 19.6% 准确率，说明"基础视觉理解已被解决"是个错觉。

研究背景与动机¶

领域现状：VQA 早已成为衡量 VLM 图像理解能力的通用标尺，近年 SOTA 模型在 SeedBench、MMVet 等经典 benchmark 上分数逼近饱和，给人一种"基础视觉理解已经被解决"的印象，于是社区把评测重心转向了领域专业知识（如 MMMU 的专家级推理）。

现有痛点：但这些分数高估了模型的真实感知能力。主流 benchmark 要么用低分辨率图、只考前景的全局理解（global scene understanding），要么即便用高分辨率，也只是做"大海捞针"式的小目标检索（needle-in-a-haystack）——也就是在一张大图里找一个孤立的小细节。这两类都没逼模型去消化"整张图同时塞满信息"的复杂度，因此测不出真实世界里（安全攸关的应用依赖细粒度感知）会暴露的短板。

核心矛盾：作者把瓶颈定位在视觉表征与多模态对齐上。视觉编码器的本职是把空间信息压缩进语义空间，经验风险最小化只鼓励保留"训练时常见、对任务有用"的特征——这天然给细粒度感知设了一个上界。当一个场景密集到信息量超过编码器的"带宽"时（随机噪声是极端例子），模型必然丢细节。

本文目标：造一个专门在"密集 + 高分辨率"场景下、用无需专业知识的基础视觉任务来压力测试 VLM 的 benchmark，并量化模型在压力下到底掉到什么程度、以什么方式失败。

切入角度：用人物/动作/支线高度密集的公版名画作为天然的"视觉过载"图源——这些画作本就是为了让人眼花缭乱、需要长时间凝视才能看全细节而创作的，且全部公版（原作者去世超 100 年），既新鲜（不会泄漏进预训练语料）又无版权风险。

核心 idea：不考新知识、不考难题型，只用人人都觉得"简单"的基础视觉任务，但把它们放进密集到让模型"喘不过气"的场景里，看 SOTA VLM 会不会原形毕露。

方法详解¶

整体框架¶

这是一篇纯 benchmark 论文，没有训练新模型，核心产出是数据集本身和一套防作弊的评测协议。整条 pipeline 是：从 Google Arts & Culture 收 150 张公版名画 → 统一降采样到 4K → 6 名标注者按 6 类任务手工出题（约每图 18 题，含多选/二元/自由形式三种答案格式，二元题成对出"逻辑相反"问题）→ 用 37 个 VLM 跑一遍做质量控制（剔除"盲答"也能答对的语言偏差题）→ 按全体模型的答对率把题目切成 easy/medium/hard 三档 → 真值私有，只放评测服务器打分。

关键设计¶

1. 视觉过载图源：用密集名画把"信息带宽"打满

针对前面"现有 benchmark 测不出密集场景下的崩溃"这个痛点，作者刻意选了人物、动作、同时展开的支线叙事填满整幅、背景还极其精细的名画。这类图天然超 4K（多数 ≥ 3840×2160），统一降采样到最接近 4K 的像素数、保持长宽比（28 张原本就低于 4K 的不动，但都保持在 Full HD 以上）。和"大海捞针"式高分辨率 benchmark 的本质区别在于：后者只考一个孤立小细节的检索，而 VisualOverload 要求模型同时消化整幅画的丰富度——这正好对准了编码器"压缩即丢信息"的上界假设。全部公版还顺带解决了泄漏（fresh data，不在预训练语料里）和版权两个问题。

2. 六类基础任务 + 三种答案格式：只考感知，不考知识

题目覆盖六个基础视觉任务：活动识别（N=150）、属性识别（N=149，主要问颜色，常带空间约束如"最左边那艘船旗的颜色"）、计数（N=559）、OCR（N=118，含英/拉丁/中/荷/希腊语）、推理（N=356，需要 chain-of-thought，如"要到右边两座风车得不得过水？"）、场景分类（N=1388，浅层理解，预期人人都会）。答案格式分多选（4 选 1 或二元 yes/no）和自由形式；计数和 OCR 故意用自由形式（不给选项）以提高难度。所有题都强制"必须看图才能答、不能靠文字先验"，且只问能从画面直接观察或合理推断的内容，排除主观解读和需要专家知识的题——这样把"基础感知"从"懂艺术史"里干净地剥离出来。

3. 逻辑相反配对题：低成本探测捷径与不一致

每道二元 yes/no 题都配一道逻辑相反题（如"是白天吗？"配"是夜晚吗？"）。这一招有双重作用：一是把二元题的随机猜测基线从 50% 拉低（成对计分，两题都对才算对，否则算错，即 pair-wise accuracy），二是直接提供了一个测逻辑一致性的信号——一个强模型即便答错，也该在相反题上保持逻辑一致（说了"是白天"就该否认"是夜晚"）。这把"模型是真在看图推理还是在走捷径瞎猜"变成了可量化的指标。

4. 私有真值 + 盲答质控：堵住泄漏与语言偏差两个漏洞

为防止 benchmark 被后续 VLM 的训练数据吃掉，真值全程私有，只公开图和问题，靠评测服务器打分并按用户/天限速（防真值提取攻击），也不放开发集（因为任务不需要任何 finetune）。语言偏差方面：先用 3 个最强开源模型（InternVL3-38B、Qwen2.5-VL 32B、LLaVA-OV 72B）做盲答（ablate 掉图、只看文字），找出不看图也能答对的题，再让 Gemini 2.5 Pro 检测每题的语言偏差并剔除严重者（如正确答案明显是异类、或被问题语境暗示）。质控后多数任务的盲答性能降到接近随机；属性识别和计数仍略高于随机，但那来自真值分布的统计规律（如小数目更常见）这类无法消除、也不构成可泛化捷径的先验。

5. 按模型答对率切难度档：让"难"有客观定义

难度不靠人主观判断，而是用全体 37 个模型对每道题的答对率来切：答对率落在 \([0,20]\) 为 hard，\((20,90)\) 为 medium，\([90,100]\) 为 easy。这样 easy/medium/hard 三档是被"机器的实际表现"校准出来的，hard 档天然是"几乎所有模型都做不对"的题，能把最强模型逼到角落里（o3 在 hard 档仅 19.6%）。

实验关键数据¶

主实验¶

评测 37 个 VLM（开源 450M–109B，分小/中/大三个参数段 + 专用高分辨率模型 + 4 个闭源前沿模型），贪心解码（闭源和贪心失效的如 Llama 4 用采样）。准确率定义为答案与真值精确匹配；计数额外报 RMSE，OCR 额外报归一化 Levenshtein 编辑距离。

模型	参数(B)	计数	OCR	推理	场景	Hard	Total
随机基线	-	0.0	0.0	25.0	25.0	3.7	16.0
一致猜测基线	-	0.0	0.0	42.5	50.0	4.7	27.2
o3（最强闭源）	–	36.7	61.0	75.1	94.7	19.6	69.5
o4-mini	–	38.3	62.7	67.8	93.7	17.2	69.1
Gemini 2.0 Flash	–	41.7	57.6	56.6	92.1	19.1	68.1
InternVL3 38B（最强开源）	38	35.4	45.8	69.8	92.2	7.2	67.6
InternVL3 8B	8	32.2	42.4	59.0	93.4	7.9	63.9
Qwen2.5-VL 72B	72	35.1	72.9	53.2	90.5	13.4	65.7
LLaVA 1.5 7B	7	13.2	3.4	39.5	43.2	1.9	30.8

关键现象：

计数全军覆没：最好的 Gemini 2.0 Flash 也只有 41.7%，多数模型在 13–35% 之间，连"场景里有几只动物"这种题都答不准。
OCR 闭源/开源分化最大：最好 o4-mini 62.7%，但 LLaVA 系列低到个位数（3.4%）；Qwen2.5-VL 72B 在 OCR 上意外强（72.9%）。
推理逼近一致猜测基线：几乎所有模型在推理任务上相比"一致猜测基线"（42.5%）提升很小，部分小模型甚至更差；唯一正向离群是 o3（75.1%），作者归因于它的推理模式。
场景分类是唯一好做的：8B 参数就够拿 93.4%，因为它只靠浅层全局理解——这恰好印证了现有 benchmark 高估能力的根源。
反直觉缩放：性能不总随参数增大而提升，InternVL3、PaliGemma 2 的最大号反而掉点；专用高分辨率模型（VILA HD、ILM-XC2-4KHD）显著弱于同尺寸常规模型，因为现代 VLM 普遍已用 AnyRes 等支持高分辨率，性能更依赖 backbone 和训练而非"专为高分辨率设计"。

误差分析¶

失败维度	关键量化结果	说明
计数	10% 容差下平均仅 +1.6%	真值越大错得越狠；多为拒答（记 0）或"太多数不清"，普遍低估
OCR	错误样本归一化编辑距离质心 ≈ 0.7	错得很离谱；三大成因：幻觉、抽到无关文字、不遵守"只输出文字"指令；低距离错误常是模型把生僻词"自动纠正"成高频词（如 accidunt→accident）
逻辑一致性	场景题 83.3% → 推理题 60.6%	题一难，一致性骤降到接近随机，说明模型在"复杂题"上脱离视觉输入独立瞎猜；个别（PaliGemma2 3B）甚至低于随机，即靠捷径

关键发现¶

掉点最狠的是计数和细粒度 OCR：这两个任务不能靠"全局印象"蒙混，必须真正逐个数、逐字读，最暴露编码器的细粒度感知上界。
场景分类好 ≠ 真懂图：模型在浅层全局任务上表现亮眼，却在同一张图的细粒度题上崩溃，正好坐实"现有 benchmark 高估能力"的假设。
逻辑不一致暴露捷径依赖：成对题揭示模型在难题上准确率甚至跌破随机/一致猜测基线，说明它们靠的是 shortcut 而非稳健推理。

消融实验要点¶

本文是 benchmark 论文，没有传统意义上的模型消融，但有几项验证设计有效性的分析：

分析	配置	结论
盲答质控	ablate 图、只看文字	质控后多数任务盲答降到接近随机，证明题目确实"必须看图"；属性/计数残留的高于随机来自不可消除的分布先验，非可泛化捷径
计数容差	10% / 50% / 100% 容差	10% 容差只救回 1.6%，说明错误是"量级级"的严重错，不是差一两个；大容差虽提升明显但对真实应用无意义
高分辨率消融	不同分辨率下跑 VisualOverload（附录 D）	验证密集场景是真瓶颈，而非单纯分辨率问题

亮点与洞察¶

用名画当"压力测试图"很聪明：密集名画是为"让人眼花缭乱"而生的天然过载场景，且公版无版权、新鲜不泄漏，一举解决图源、泄漏、版权三个问题——这个图源选择本身就是核心创新。
逻辑相反配对题是低成本高信号的设计：一道题的成本配出"降随机基线 + 测逻辑一致性"两个用途，把"模型是真看图还是走捷径"变成可量化指标，这个 trick 可直接迁移到任何含二元判断的 benchmark。
难度档由模型答对率校准：避免了人主观定难度，让 hard 档天然是"机器集体做不对"的题，比拍脑袋分难度更有说服力。
最让人"啊哈"的是场景分类与细粒度的割裂：同一张图，8B 模型场景分类 93%、最强模型计数却 < 42%，直接证明"基础视觉理解已解决"是评测口径造成的错觉。
专用高分辨率模型反而更差这一反直觉结论，提醒社区高分辨率能力现在更取决于 backbone/训练而非专门架构。

局限性 / 可改进方向¶

作者承认：数据全是艺术作品，结论未必直接迁移到自然图像——艺术表达常强调抽象而非写实，风格方差大、依赖全局形状。作者把这当"特性而非缺陷"（真正的基础模型应当像人一样鲁棒地理解各种表征），但这对结论的外推性确实是个 caveat。
横向比较需谨慎：不同任务难度、随机基线不同（计数/OCR 假设无先验 0%，多选 25%），各任务的绝对分数不可直接比大小；闭源模型用采样、开源用贪心，解码策略不完全一致。
只测了"模型答得对不对"：误差分析靠全体模型的平均统计（为保护私有真值），无法对单个模型做细粒度的逐题归因；也没探究"换 prompt / 加 CoT / 切图分块"等缓解手段能救回多少，作者把这留给社区在 leaderboard 上探索。
改进思路：把同款"密集场景压力测试"协议迁到自然图像、文档、视频上，验证瓶颈是否普遍；或据此设计专门强化细粒度感知的训练目标（如局部 patch 重建/计数预训练）。

评分¶

新颖性: ⭐⭐⭐⭐ 图源选择（密集公版名画）和逻辑配对题设计巧妙，但本质仍是一个 benchmark 论文。
实验充分度: ⭐⭐⭐⭐⭐ 37 个模型全谱系覆盖 + 计数/OCR/逻辑一致性三维误差分析 + 盲答/容差/分辨率多项验证，非常扎实。
写作质量: ⭐⭐⭐⭐ 动机推导清晰、结论有力；表格信息密但可读。
价值: ⭐⭐⭐⭐⭐ 戳破"基础视觉已解决"的错觉，私有真值 + 评测服务器防泄漏，是社区急需的耐用资源。