Contamination Detection for VLMs using Multi-Modal Semantic Perturbation¶

会议: ICLR2026
arXiv: 2511.03774
代码: https://github.com/jadenpark0/mm-perturb
领域: 多模态VLM
关键词: data contamination, VLM, benchmark leakage, semantic perturbation, ControlNet

一句话总结¶

提出多模态语义扰动框架检测VLM数据污染：用LLM生成密集描述 + Flux ControlNet在保持图像构图的同时改变答案相关语义元素，污染模型因记忆原始图文对而在扰动版本上表现骤降，干净模型则因真正推理能力而不受影响。首次系统验证现有LLM污染检测方法在VLM场景下大多不可靠。

研究背景与动机¶

领域现状：VLM（如LLaVA、Qwen2-VL）在MMStar、RealWorldQA等benchmark上表现优异，但训练数据往往是互联网规模的专有语料。这引发了一个关键担忧：测试集泄露导致的性能膨胀——模型可能并未真正理解视觉推理，而是记住了测试题。

现有痛点： 1. LLM检测方法应用于VLM时不可靠：文本扰动（如选项打乱、n-gram检测）无法改变视觉特征，VLM可凭图像记忆直接答题 2. 缺乏系统研究：不同污染策略（标准微调 vs LoRA、不同epoch数）下检测方法的有效性从未被全面评估 3. 没有方法同时满足三大要求：实用性（无需clean模型作参照）、可靠性（跨训练策略一致检测）、一致性（检测信号与污染程度正相关）

核心矛盾：VLM是多模态的——仅扰动文本不够（模型看图记忆），仅扰动选项不够（模型认选项位置）——必须同时扰动图像和文本的语义才能打破记忆。

本文方案：生成语义扰动的图像-问题对——保持构图但改变答案相关语义元素。污染模型因记忆原始图文对而失败，干净模型因推理能力而成功。通过比较模型在原始 vs 扰动benchmark上的性能差异来检测污染。

方法详解¶

整体框架¶

五步检测流水线： 1. 答案随机化：将原始问题的正确答案随机改为其他选项 2. 密集描述生成：GPT-4o基于原始图像和新答案生成条件化的密集文字描述 3. 图像扰动生成：Flux ControlNet + Canny边缘图保持全局构图，按密集描述生成新图像 4. 质量过滤：人工（或自动）筛选确保扰动问题可被明确回答 5. 污染检测：比较模型在原始 vs 扰动benchmark上的准确率差异——差异大即判定污染

核心原理：污染模型记忆了"图像→答案"的映射，图像语义改变后答案变了但模型仍输出旧答案→性能骤降。干净模型基于真实推理，面对难度相当或更低的扰动问题应表现相当或更好。

关键设计一：多模态语义扰动¶

为何必须扰动图像：仅打乱选项顺序（Choice Confusion）或循环选项位置（CircularEval），VLM仍可凭视觉记忆答题。论文实验表明这些方法在多种污染设置下失败。

扰动方法的关键约束： - 保持图像整体构图不变（通过Canny边缘图 + ControlNet） - 只改变与答案相关的语义元素（如限速牌的数字从25变为35） - 扰动后难度不高于原题（确保干净模型不会因难度增加而失败）

条件化描述的重要性：GPT-4o生成描述时同时输入原始图像和新答案选项，确保描述精准突出需要改变的视觉元素。

关键设计二：三大检测要求的形式化¶

引入污染程度的数学定义 \(\text{deg}_\mathcal{D}(x) = (\sum_{d \in \mathcal{D}} \mathbf{1}_{\{x=d\}}) \times n\)，基于此提出三个要求：

要求	定义	本文方法	现有方法
实用性	无需clean模型/训练语料	✓	多数✗
可靠性	跨训练策略（标准FT/LoRA）一致	✓	多数✗
一致性	检测信号∝污染程度	✓	部分▲

关键设计三：框架无关性¶

论文验证了： - 生成模型无关：除Flux + ControlNet外，也可使用其他扩散模型 - LLM无关：除GPT-4o外，其他LLM也可生成描述 - 过滤方式无关：自动过滤（使用强推理模型）可替代人工过滤

实验结果¶

主实验：MMStar数据集检测对比¶

检测方法	需要clean模型?	LLaVA LoRA 1ep	LLaVA LoRA 3ep	Qwen LLM 1ep	Qwen LLM 3ep
本文方法 (Δ)	否 ✓	-8.29 ✓	-16.16 ✓	-29.50 ✓	-43.03 ✓
CircularEval (Δ)	是 ✗	-23.44 ✓	+1.22 ✗	-15.96 ✓	-28.69 ✓
Choice Confusion (Δ)	否 ✓	+1.01 ✗	+14.75 ✗	+21.01 ✗	+12.12 ✗
Multi-modal Leakage (Δ)	是 ✗	+10.31 ✓	+11.12 ✓	+0.41 ✓	-10.70 ✗

核心发现： - 本文方法在所有12种设置（2模型×3训练策略×2 epoch范围）下均成功检测，是唯一满足全部三个要求的方法 - 干净模型在扰动数据上表现更好（LLaVA: +31.51, Qwen: +16.16），确认扰动问题难度不高于原题 - Choice Confusion在10/12个设置中完全失败——VLM确实可以凭视觉记忆绕过文本扰动

消融：检测信号与污染程度的关系¶

模型	Epoch 1 Δ	Epoch 2 Δ	Epoch 3 Δ
LLaVA LoRA	-8.29	-13.13	-16.16
LLaVA LLM+MLP	-8.49	-11.52	-13.74
Qwen LoRA	-7.07	-28.89	-32.32
Qwen LLM only	-29.50	-43.03	-43.03

性能下降幅度随epoch数单调增大（或饱和），完美满足一致性要求——污染越重，检测信号越强。

过滤子集的代表性验证¶

数据集	完整集	过滤子集	差异
RealWorldQA (LLaVA)	49.01%	52.05%	+3.04%
RealWorldQA (Qwen)	70.33%	70.45%	+0.12%
MMStar (LLaVA)	32.87%	37.78%	+4.91%
MMStar (Qwen)	62.02%	-	-

过滤后子集上的模型表现与完整集高度一致，说明过滤未引入系统偏差。

论文评价¶

优点¶

问题定义清晰：三大检测要求（实用性/可靠性/一致性）的形式化为该领域提供了统一的评估框架
方法直觉优美：利用ControlNet保持构图但改变语义→直接打击"记忆"这一污染核心机制
实验极其详尽：覆盖2个模型×3种训练策略×3个epoch×4种检测方法的完整交叉实验，说服力强

不足¶

依赖生成模型的质量——当前扩散模型在文字渲染、复杂几何等方面仍有限制，导致大量样本被过滤（RealWorldQA剩余57%，MMStar剩余32%）
人工过滤成本高，虽然展示了自动过滤的可行性，但自动过滤本身引入了额外的强推理模型依赖
仅验证了fine-tuning阶段的污染，预训练阶段的泄露检测因计算成本未涉及

评分¶

⭐⭐⭐⭐

推荐理由：首次为VLM污染检测提供了可靠、实用、一致的解决方案。核心洞察——必须扰动图像语义而非仅扰动文本——简单但深刻。实验设计的系统性和全面性是该领域同类工作中最好的，为后续VLM评估可信度研究奠定了基础。