Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities¶

会议: ACL 2025
arXiv: 2507.10442
作者: Shivam Chandhok, Wan-Cyuan Fan, Vered Shwartz, Vineeth N Balasubramanian, Leonid Sigal (UBC, Vector Institute, IIT Hyderabad, MSR India)
代码: 未公开
领域: 多模态VLM
关键词: 视觉语言模型, VLM分析, 线性探针, 中间特征空间, 视觉编码器, 信息流失

一句话总结¶

通过在VLM的三个中间特征空间（视觉编码器、VL投影层、语言解码器）上训练线性探针，系统揭示了一个反直觉的现象：对于大多数视觉任务，视觉编码器和VL投影层其实保留了充分的视觉信息，真正的瓶颈在于语言解码器的响应空间——信息在从投影层传递到最终文本输出的过程中大量丢失。

研究背景与动机¶

问题背景¶

VLM在复杂任务（图表理解、幽默识别等）上表现出色，但在基础视觉能力上却频繁暴露短板：无法理解简单否定、难以准确计数、细粒度识别能力差。这种"高阶能力强、基础能力弱"的矛盾说明VLM解决复杂任务的机制可能与人类不同，更依赖大规模匹配和记忆检索而非功能性推理。

已有工作的局限¶

此前的研究（Peng et al. 2024, Paiss et al. 2023, Kim & Ji 2024等）仅评估VLM的最终文本响应，只能从黑盒角度判断"模型行不行"，却无法定位"哪个模块出了问题"。EWS（Tong et al. 2024）将问题归咎于视觉编码器不够好，但这一结论可能过于片面。

核心动机¶

打开VLM的黑盒，通过剖析三个中间特征空间的表现，精确定位信息在哪个环节丢失，为改进VLM架构和训练策略提供有针对性的指导。

方法详解¶

整体分析框架¶

将VLM拆解为三个模块对应的特征空间进行独立评估： 1. 视觉空间（Visual）：视觉编码器（如CLIP ViT）输出的特征 2. VL投影空间（VL Proj）：经过视觉-语言对齐投影后的特征（如MLP或Q-Former输出） 3. 响应空间（Response）：语言解码器的输出，分为两种评估方式——对token嵌入训练探针（Probe）和直接评估文本回答（Text）

对前两个空间，在冻结特征上训练单层线性探针（逻辑回归），以评估该空间是否编码了足够的任务相关信息。对响应空间，既训练探针（保持评估一致性），也直接用VQA问答形式评估文本输出（这是VLM的标准使用方式）。

关键设计1：控制任务验证探针有效性¶

为排除线性探针仅仅从训练数据中学到任务而非真正读取表征中的信息，设置了控制任务：随机打乱标签后重新训练探针。如果探针在正常标签上表现好、在随机标签上表现差，则说明探针确实在利用表征中的信息，而非自行学习任务。

关键设计2：多任务多模型全面覆盖¶

任务覆盖：粗粒度识别（PaintSkills、Pascal VOC）、细粒度识别（Stanford Dogs、CUB鸟类）、物体计数（1-4个）、空间关系理解（上下左右）
模型覆盖：三类共7个VLM——对比式（CLIP、ALBEF）、编码器-解码器式（CoCa、BLIP-2）、指令微调式（InstructBLIP、LLaVA-1.5、LLaVA-NEXT）
所有任务统一为分类问题，转化为VQA查询格式

关键设计3：背景变换与鲁棒性分析¶

设计了11种图像变换来探测VLM如何处理前景/背景信息：纯黑/白背景、轮廓遮罩、反向模糊、红圈标注、边缘图、补丁打乱等，分别观察三个空间对这些变换的响应差异。

实验关键数据¶

表1：粗粒度 vs 细粒度识别性能对比¶

任务	模型	Visual Probe	VL Proj Probe	Response Probe	Response Text
粗粒度(均值)	LLaVA-NEXT 7B	98.6	98.2	94.2	95.9
粗粒度(均值)	InstructBLIP 7B	99.0	98.9	96.8	84.0
细粒度(均值)	LLaVA-NEXT 7B	90.2	86.1	30.0	24.5
细粒度(均值)	InstructBLIP 7B	92.9	93.3	44.6	12.5
细粒度(均值)	LLaVA-1.5 7B	92.1	88.0	30.0	27.3
细粒度(均值)	BLIP-2 7B	92.8	92.6	39.3	16.8

粗粒度识别中三个空间性能差距不大（约5%），但细粒度识别中响应空间骤降至少45个百分点——视觉编码器和投影层都达到90%+，响应空间却只有12-44%。

表2：计数与空间理解的信息流向对比¶

任务	模型	Visual Probe	VL Proj Probe	Response Text
计数	LLaVA-NEXT 7B	94.4	95.7	81.2
计数	InstructBLIP 7B	96.6	95.6	82.0
计数	BLIP-2 7B	96.6	95.3	25.0
空间	LLaVA-1.5 7B	50.2	51.0	63.0
空间	LLaVA-1.5 13B	50.5	49.0	74.0
空间	LLaVA-NEXT 7B	49.8	49.8	37.6

计数任务与细粒度识别趋势相同（视觉空间强、响应空间弱），但空间理解任务呈现反转趋势——视觉空间接近随机（~50%），响应空间反而更好。这说明空间理解的瓶颈确实在视觉编码器，而非语言解码器。

表3：背景变换对不同空间的影响（COCO数据集，LLaVA-NEXT）¶

变换	Visual Probe	VL Proj Probe	Response Text
原始	77.5	74.5	67.5
黑色背景	88.3 (+10.8)	87.0 (+12.5)	72.5 (+5.0)
反向模糊	87.8 (+10.3)	87.5 (+13.0)	74.2 (+6.7)
轮廓+白背景	47.9 (-29.6)	44.7 (-29.8)	20.3 (-47.2)
边缘图	62.0 (-15.5)	60.1 (-14.4)	52.4 (-15.1)
补丁打乱	73.5 (-4.0)	70.1 (-4.4)	65.2 (-2.3)

去除背景在视觉和投影空间带来约11-12%的提升，但在响应空间提升减半（仅约5%），再次证实信息从中间层到响应层存在损耗。反向模糊是"最佳策略"，兼顾聚焦前景和保留背景上下文。

关键发现¶

视觉编码器并非瓶颈：与EWS等先前工作的结论相反，视觉编码器在大多数任务上表征了充分的信息（探针准确率>90%），VL投影层也基本保持了这些信息。
语言解码器是信息黑洞：细粒度识别中，响应空间性能比视觉空间骤降45%以上；计数任务中也有至少14%的下降。信息明确存在于中间层，但无法传递到最终输出。
空间理解是唯一的例外：此任务中视觉编码器（CLIP）才是真正的瓶颈，接近随机水平（~50%），而语言解码器反而能通过微调数据中的空间样本部分弥补。
扩大语言模型规模帮助有限：LLaVA-NEXT从7B扩展到34B，细粒度识别的响应空间准确率从31.0%提升到49.4%，仍比视觉空间低35%以上。
纹理优于形状：边缘图（保留形状去除纹理）导致性能大幅下降，而补丁打乱（破坏形状保留纹理）影响较小，说明VLM与人类不同，更依赖纹理信息。
响应空间"伪鲁棒"：响应空间对视觉腐蚀最鲁棒，但这并非因为它善于处理噪声，而是因为它本来就没有充分利用视觉信息。

亮点与洞察¶

分析范式的创新：首次系统性地在三个中间特征空间上对比VLM性能，将"VLM哪里不行"这个模糊问题精确化为"哪个模块丢失了什么信息"
推翻流行观点：有力反驳了"视觉编码器是VLM基础视觉能力瓶颈"的主流认知，将问题重新指向VL投影层与语言解码器的联合微调不充分
数据驱动的解释：发现LLaVA 665K微调数据中仅0.17%涉及细粒度狗品种，LAION-2B中仅0.2%涉及空间关系，直接解释了性能差异的数据根源
实用的改进方向：明确指出增加细粒度样本、改进投影层与解码器的联合训练是比更换视觉编码器更有效的策略
背景变换实验设计精巧：11种变换系统覆盖了前景/背景分离、视觉提示、形状/纹理解耦等多个维度

局限性¶

仅限开源模型：由于需要中间特征，无法评估GPT-4V、Gemini等闭源模型，而这些模型在架构和训练数据上可能有本质不同
任务覆盖有限：仅涉及识别、计数、空间理解三个基础任务，未涵盖分割、视觉推理、OCR等更复杂的能力
模型时效性：分析的模型（LLaVA-1.5/NEXT、BLIP-2等）已非最新SOTA，更新的模型（如LLaVA-OneVision、Qwen-VL等）是否存在同样问题有待验证
线性探针的局限：线性探针只能检测线性可分的信息，可能低估了非线性编码的视觉知识
训练数据难以完全控制：不同VLM的预训练和微调数据差异大，难以完全排除数据因素的混淆

评分¶

新颖性: ⭐⭐⭐⭐ — 三空间探针分析框架是新颖且有启发性的分析范式
实验充分度: ⭐⭐⭐⭐ — 7个模型×4种任务×多种变换，覆盖面广，控制实验到位
写作质量: ⭐⭐⭐⭐ — 结构清晰、结论层层递进，图表信息量大
价值: ⭐⭐⭐⭐ — 为VLM社区提供了重要的诊断工具和改进方向，但缺乏验证性实验（如按建议改进后是否真的有效）