跳转至

Rethinking VLMs for Image Forgery Detection and Localization

会议: CVPR 2026
arXiv: 2603.12930
代码: github.com/sha0fengGuo/IFDL-VLM
领域: 多模态VLM
关键词: 图像伪造检测, VLM语义偏差, 解耦优化, SAM定位, 可解释性

一句话总结

揭示VLM天然偏向语义合理性而非真实性(CLIP对伪造图像余弦相似度达96-99%),提出IFDL-VLM将检测定位与语言解释解耦为两阶段,先用ViT+SAM做检测定位再将mask作为VLM辅助输入增强可解释性,在9个基准上全面达到SOTA。

研究背景与动机

领域现状:AIGC时代图像伪造检测与定位(IFDL)面临高度逼真的合成图像和混合伪造(AI生成+传统编辑+后处理),传统基于低级伪影的方法日益失效。近期SIDA、FakeShield等方法将VLM(CLIP+LLM+SAM)整合到端到端管线中以增强可解释性。

现有痛点:(1) VLM的CLIP视觉编码器在大规模自然图像上预训练,优化目标是语义对齐而非真实性甄别;(2) 伪造图像只要"语义上说得通",CLIP特征几乎不变——猫被替换后CLIP余弦相似度仍达96.3%,人被添加后达98.5%;(3) 端到端训练使VLM的语义偏差直接传播到检测定位模块,反而不如专用模型。

核心矛盾:VLM追求"语义合理"与IFDL需要"感知不真实"之间存在根本对立。

本文目标 回答两个问题——VLM先验是否真的有助于IFDL(否)?检测定位结果能否反过来帮助VLM生成更好的解释(是)?

切入角度:将检测定位与语言解释完全解耦,用专用ViT+SAM做检测定位,再将定位mask反馈给VLM作为显式的伪造概念编码。

核心 idea:不让VLM参与检测定位(它做不好),而是让检测结果告诉VLM应该解释什么(它能做好)。

方法详解

整体框架

两阶段解耦设计:Stage-1 训练ViT backbone(CLIP-ViT-L/14初始化)+ frozen SAM做检测和定位。全局CLS token走线性分类器做三分类(真实/全合成/篡改),patch token经多头注意力聚合为SEG token输入SAM掩码解码器生成定位mask。Stage-2 将Stage-1的定位mask作为辅助输入,通过区域感知视觉特征增强技术 \(T_{vis} = \alpha \cdot \text{CLIP}(x) + (1-\alpha) \cdot \text{CLIP}(x \odot M)\) 融合全局语义和局部伪造线索,微调Vicuna-13B LLM生成语言解释。

关键设计

  1. VLM语义合理性偏差的发现与验证:

    • 功能:系统验证VLM先验对IFDL的负面影响
    • 核心思路:CLIP对伪造图像和原图的视觉特征余弦相似度高达96.3%~98.5%,表明CLIP将高级场景一致性而非视觉真实性作为优化目标,导致伪造与真实图像的表示不可区分
    • 设计动机:这一发现驱动了解耦设计——既然CLIP不关心真实性,就不应让其参与检测定位
  2. 定位mask编码伪造概念的反向信息流:

    • 功能:将Stage-1的检测定位结果作为Stage-2 VLM的显式输入
    • 核心思路:定位mask \(M\) 显式指出"哪里被改了",VLM无需从数据中隐式学习伪造概念。通过 \(T_{vis} = \alpha \cdot \text{CLIP}(x) + (1-\alpha) \cdot \text{CLIP}(x \odot M)\)(α=0.5),同时保留全局语义和局部伪造区域的低层线索
    • 设计动机:将VLM从"自己发现伪造在哪里"的困难任务中解放出来,聚焦于"解释给定区域为什么是伪造的"——这正是VLM的强项
  3. Stage-1的ViT+SAM专用检测定位:

    • 功能:绕开VLM偏差,用专用模型做检测和定位
    • 核心思路:可训练ViT backbone产出CLS token做三分类和SEG token给frozen SAM生成mask,损失为 \(\mathcal{L}_{st-1} = \mathcal{L}_{bce}(\hat{M},M) + \mathcal{L}_{dice}(\hat{M},M) + \mathcal{L}_{ce}(\hat{D},D)\)
    • 设计动机:专用模型不受CLIP语义偏差影响,能更好地学习低层伪造痕迹

损失函数 / 训练策略

Stage-1:BCE + Dice损失(定位)+ CE损失(分类),权重均为1.0。Stage-2:标准语言建模CE损失。优化器AdamW (lr=1e-5, β=(0.9,0.95)),100步warmup后余弦衰减,batch size=4带gradient accumulation=10,混合精度训练。SAM image encoder保持冻结,仅微调mask decoder。

实验关键数据

主实验

数据集/任务 指标 IFDL-VLM SIDA-13B FakeShield 提升
SID-Set检测 Overall ACC 0.997 0.94 - +5.7%
SID-Set检测 Overall F1 0.998 0.94 - +5.8%
SID-Set定位 IoU 0.65 0.44 - +21%abs
SID-Set定位 AUC 0.99 0.87 - +12%abs
跨数据集8个均值 Avg IoU 0.47 0.38 0.34~0.39 +13%
跨数据集8个均值 Avg F1 0.58 0.45 0.39~0.45 +19%

消融实验

配置 关键指标 说明
α=0.5(默认) CSS 0.853 全局语义与局部伪造线索的最优平衡点
α=0 (仅mask区域) CSS 0.821 缺少全局语义上下文
α=1 (仅全图) CSS 0.798 无mask引导,回退到普通VLM
解冻CLIP微调 语言质量↓ 破坏跨模态对齐
用预测mask替代GT CSS 0.842 与GT(0.853)差距极小,框架鲁棒

关键发现

  • 解耦比端到端更好——看似"更简单"的管线反而性能更强,因为消除了CLIP偏差干扰
  • 定位mask对VLM可解释性的增益显著:GPT-5评分整体2.36 vs SIDA 1.44(+63.9%)
  • 在人类偏好研究中65.2%的评估者选择本文方法的解释

亮点与洞察

  • VLM偏向语义合理性而非真实性的核心发现可能影响整个AIGC检测领域——凡是用VLM做异常/伪造检测的工作都应注意这一偏差
  • "检测结果帮助解释"的反向信息流设计巧妙——mask显式编码伪造概念,简化VLM训练优化
  • 跨数据集泛化能力突出——在8个未见数据集上均表现优异
  • 框架对Stage-1定位误差鲁棒(预测mask vs GT mask几乎同等效果)

局限与展望

  • Stage-1定位严重失败时会级联影响Stage-2解释质量(虽然实验显示一定鲁棒性)
  • 两阶段训练增加工程复杂度,未来可探索单阶段解耦设计
  • Stage-2仍使用frozen CLIP编码器,可能在某些细粒度场景下限制语言生成质量
  • GPT-5自动评估的可靠性和偏差需要更多验证

相关工作与启发

  • vs SIDA: 端到端VLM管线,SID-Set检测ACC 0.94 vs 本文0.997,定位IoU 0.44 vs 0.65。端到端反而不如解耦
  • vs FakeShield: 使用SAM和MLLM的IFDL方法,8数据集Avg IoU 0.34~0.39 vs 本文0.47
  • vs MVSS-Net/CAT-Net: 传统IFDL方法,无语言解释能力,定位性能也远不如本文
  • 解耦思路可推广:遇到预训练模型先验与下游任务目标不一致时,不应强行端到端训练而应解耦各自优势

评分

  • 新颖性: ⭐⭐⭐⭐⭐ VLM语义合理性偏差这一insight极具价值,解耦设计反直觉但有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 9个数据集、检测+定位+可解释性三维度、人类偏好研究+GPT评估
  • 写作质量: ⭐⭐⭐⭐⭐ 动机分析(余弦相似度验证)有说服力,方法描述清晰
  • 价值: ⭐⭐⭐⭐⭐ 对AIGC时代图像真实性验证有重要实用价值,insight可迁移