跳转至

Contamination Detection for VLMs using Multi-Modal Semantic Perturbation

会议: ICLR2026
arXiv: 2511.03774
代码: https://github.com/jadenpark0/mm-perturb
领域: 多模态VLM
关键词: data contamination, VLM, benchmark leakage, semantic perturbation, ControlNet

一句话总结

提出多模态语义扰动框架检测VLM数据污染:用LLM生成密集描述 + Flux ControlNet在保持图像构图的同时改变答案相关语义元素,污染模型因记忆原始图文对而在扰动版本上表现骤降,干净模型则因真正推理能力而不受影响。首次系统验证现有LLM污染检测方法在VLM场景下大多不可靠。

研究背景与动机

领域现状:VLM(如LLaVA、Qwen2-VL)在MMStar、RealWorldQA等benchmark上表现优异,但训练数据往往是互联网规模的专有语料。这引发了一个关键担忧:测试集泄露导致的性能膨胀——模型可能并未真正理解视觉推理,而是记住了测试题。

现有痛点: 1. LLM检测方法应用于VLM时不可靠:文本扰动(如选项打乱、n-gram检测)无法改变视觉特征,VLM可凭图像记忆直接答题 2. 缺乏系统研究:不同污染策略(标准微调 vs LoRA、不同epoch数)下检测方法的有效性从未被全面评估 3. 没有方法同时满足三大要求:实用性(无需clean模型作参照)、可靠性(跨训练策略一致检测)、一致性(检测信号与污染程度正相关)

核心矛盾:VLM是多模态的——仅扰动文本不够(模型看图记忆),仅扰动选项不够(模型认选项位置)——必须同时扰动图像和文本的语义才能打破记忆。

本文方案:生成语义扰动的图像-问题对——保持构图但改变答案相关语义元素。污染模型因记忆原始图文对而失败,干净模型因推理能力而成功。通过比较模型在原始 vs 扰动benchmark上的性能差异来检测污染。

方法详解

整体框架

五步检测流水线: 1. 答案随机化:将原始问题的正确答案随机改为其他选项 2. 密集描述生成:GPT-4o基于原始图像和新答案生成条件化的密集文字描述 3. 图像扰动生成:Flux ControlNet + Canny边缘图保持全局构图,按密集描述生成新图像 4. 质量过滤:人工(或自动)筛选确保扰动问题可被明确回答 5. 污染检测:比较模型在原始 vs 扰动benchmark上的准确率差异——差异大即判定污染

核心原理:污染模型记忆了"图像→答案"的映射,图像语义改变后答案变了但模型仍输出旧答案→性能骤降。干净模型基于真实推理,面对难度相当或更低的扰动问题应表现相当或更好。

关键设计一:多模态语义扰动

为何必须扰动图像:仅打乱选项顺序(Choice Confusion)或循环选项位置(CircularEval),VLM仍可凭视觉记忆答题。论文实验表明这些方法在多种污染设置下失败。

扰动方法的关键约束: - 保持图像整体构图不变(通过Canny边缘图 + ControlNet) - 只改变与答案相关的语义元素(如限速牌的数字从25变为35) - 扰动后难度不高于原题(确保干净模型不会因难度增加而失败)

条件化描述的重要性:GPT-4o生成描述时同时输入原始图像和新答案选项,确保描述精准突出需要改变的视觉元素。

关键设计二:三大检测要求的形式化

引入污染程度的数学定义 \(\text{deg}_\mathcal{D}(x) = (\sum_{d \in \mathcal{D}} \mathbf{1}_{\{x=d\}}) \times n\),基于此提出三个要求:

要求 定义 本文方法 现有方法
实用性 无需clean模型/训练语料 多数✗
可靠性 跨训练策略(标准FT/LoRA)一致 多数✗
一致性 检测信号∝污染程度 部分▲

关键设计三:框架无关性

论文验证了: - 生成模型无关:除Flux + ControlNet外,也可使用其他扩散模型 - LLM无关:除GPT-4o外,其他LLM也可生成描述 - 过滤方式无关:自动过滤(使用强推理模型)可替代人工过滤

实验结果

主实验:MMStar数据集检测对比

检测方法 需要clean模型? LLaVA LoRA 1ep LLaVA LoRA 3ep Qwen LLM 1ep Qwen LLM 3ep
本文方法 (Δ) 否 ✓ -8.29 ✓ -16.16 ✓ -29.50 ✓ -43.03 ✓
CircularEval (Δ) 是 ✗ -23.44 ✓ +1.22 ✗ -15.96 ✓ -28.69 ✓
Choice Confusion (Δ) 否 ✓ +1.01 ✗ +14.75 ✗ +21.01 ✗ +12.12 ✗
Multi-modal Leakage (Δ) 是 ✗ +10.31 ✓ +11.12 ✓ +0.41 ✓ -10.70 ✗

核心发现: - 本文方法在所有12种设置(2模型×3训练策略×2 epoch范围)下均成功检测,是唯一满足全部三个要求的方法 - 干净模型在扰动数据上表现更好(LLaVA: +31.51, Qwen: +16.16),确认扰动问题难度不高于原题 - Choice Confusion在10/12个设置中完全失败——VLM确实可以凭视觉记忆绕过文本扰动

消融:检测信号与污染程度的关系

模型 Epoch 1 Δ Epoch 2 Δ Epoch 3 Δ
LLaVA LoRA -8.29 -13.13 -16.16
LLaVA LLM+MLP -8.49 -11.52 -13.74
Qwen LoRA -7.07 -28.89 -32.32
Qwen LLM only -29.50 -43.03 -43.03

性能下降幅度随epoch数单调增大(或饱和),完美满足一致性要求——污染越重,检测信号越强。

过滤子集的代表性验证

数据集 完整集 过滤子集 差异
RealWorldQA (LLaVA) 49.01% 52.05% +3.04%
RealWorldQA (Qwen) 70.33% 70.45% +0.12%
MMStar (LLaVA) 32.87% 37.78% +4.91%
MMStar (Qwen) 62.02% - -

过滤后子集上的模型表现与完整集高度一致,说明过滤未引入系统偏差。

论文评价

优点

  1. 问题定义清晰:三大检测要求(实用性/可靠性/一致性)的形式化为该领域提供了统一的评估框架
  2. 方法直觉优美:利用ControlNet保持构图但改变语义→直接打击"记忆"这一污染核心机制
  3. 实验极其详尽:覆盖2个模型×3种训练策略×3个epoch×4种检测方法的完整交叉实验,说服力强

不足

  1. 依赖生成模型的质量——当前扩散模型在文字渲染、复杂几何等方面仍有限制,导致大量样本被过滤(RealWorldQA剩余57%,MMStar剩余32%)
  2. 人工过滤成本高,虽然展示了自动过滤的可行性,但自动过滤本身引入了额外的强推理模型依赖
  3. 仅验证了fine-tuning阶段的污染,预训练阶段的泄露检测因计算成本未涉及

评分

⭐⭐⭐⭐

推荐理由:首次为VLM污染检测提供了可靠、实用、一致的解决方案。核心洞察——必须扰动图像语义而非仅扰动文本——简单但深刻。实验设计的系统性和全面性是该领域同类工作中最好的,为后续VLM评估可信度研究奠定了基础。