Rethinking VLMs for Image Forgery Detection and Localization¶

会议: CVPR 2026
arXiv: 2603.12930
代码: github.com/sha0fengGuo/IFDL-VLM
领域: 多模态VLM
关键词: 图像伪造检测, VLM语义偏差, 解耦优化, SAM定位, 可解释性

一句话总结¶

揭示VLM天然偏向语义合理性而非真实性（CLIP对伪造图像余弦相似度达96-99%），提出IFDL-VLM将检测定位与语言解释解耦为两阶段，先用ViT+SAM做检测定位再将mask作为VLM辅助输入增强可解释性，在9个基准上全面达到SOTA。

研究背景与动机¶

领域现状：AIGC时代图像伪造检测与定位（IFDL）面临高度逼真的合成图像和混合伪造（AI生成+传统编辑+后处理），传统基于低级伪影的方法日益失效。近期SIDA、FakeShield等方法将VLM（CLIP+LLM+SAM）整合到端到端管线中以增强可解释性。

现有痛点：(1) VLM的CLIP视觉编码器在大规模自然图像上预训练，优化目标是语义对齐而非真实性甄别；(2) 伪造图像只要"语义上说得通"，CLIP特征几乎不变——猫被替换后CLIP余弦相似度仍达96.3%，人被添加后达98.5%；(3) 端到端训练使VLM的语义偏差直接传播到检测定位模块，反而不如专用模型。

核心矛盾：VLM追求"语义合理"与IFDL需要"感知不真实"之间存在根本对立。

本文目标 回答两个问题——VLM先验是否真的有助于IFDL（否）？检测定位结果能否反过来帮助VLM生成更好的解释（是）？

切入角度：将检测定位与语言解释完全解耦，用专用ViT+SAM做检测定位，再将定位mask反馈给VLM作为显式的伪造概念编码。

核心 idea：不让VLM参与检测定位（它做不好），而是让检测结果告诉VLM应该解释什么（它能做好）。

方法详解¶

整体框架¶

两阶段解耦设计：Stage-1 训练ViT backbone（CLIP-ViT-L/14初始化）+ frozen SAM做检测和定位。全局CLS token走线性分类器做三分类（真实/全合成/篡改），patch token经多头注意力聚合为SEG token输入SAM掩码解码器生成定位mask。Stage-2 将Stage-1的定位mask作为辅助输入，通过区域感知视觉特征增强技术 \(T_{vis} = \alpha \cdot \text{CLIP}(x) + (1-\alpha) \cdot \text{CLIP}(x \odot M)\) 融合全局语义和局部伪造线索，微调Vicuna-13B LLM生成语言解释。

关键设计¶

VLM语义合理性偏差的发现与验证:
- 功能：系统验证VLM先验对IFDL的负面影响
- 核心思路：CLIP对伪造图像和原图的视觉特征余弦相似度高达96.3%~98.5%，表明CLIP将高级场景一致性而非视觉真实性作为优化目标，导致伪造与真实图像的表示不可区分
- 设计动机：这一发现驱动了解耦设计——既然CLIP不关心真实性，就不应让其参与检测定位
定位mask编码伪造概念的反向信息流:
- 功能：将Stage-1的检测定位结果作为Stage-2 VLM的显式输入
- 核心思路：定位mask \(M\) 显式指出"哪里被改了"，VLM无需从数据中隐式学习伪造概念。通过 \(T_{vis} = \alpha \cdot \text{CLIP}(x) + (1-\alpha) \cdot \text{CLIP}(x \odot M)\)（α=0.5），同时保留全局语义和局部伪造区域的低层线索
- 设计动机：将VLM从"自己发现伪造在哪里"的困难任务中解放出来，聚焦于"解释给定区域为什么是伪造的"——这正是VLM的强项
Stage-1的ViT+SAM专用检测定位:
- 功能：绕开VLM偏差，用专用模型做检测和定位
- 核心思路：可训练ViT backbone产出CLS token做三分类和SEG token给frozen SAM生成mask，损失为 \(\mathcal{L}_{st-1} = \mathcal{L}_{bce}(\hat{M},M) + \mathcal{L}_{dice}(\hat{M},M) + \mathcal{L}_{ce}(\hat{D},D)\)
- 设计动机：专用模型不受CLIP语义偏差影响，能更好地学习低层伪造痕迹

损失函数 / 训练策略¶

Stage-1：BCE + Dice损失（定位）+ CE损失（分类），权重均为1.0。Stage-2：标准语言建模CE损失。优化器AdamW (lr=1e-5, β=(0.9,0.95))，100步warmup后余弦衰减，batch size=4带gradient accumulation=10，混合精度训练。SAM image encoder保持冻结，仅微调mask decoder。

实验关键数据¶

主实验¶

数据集/任务	指标	IFDL-VLM	SIDA-13B	FakeShield	提升
SID-Set检测	Overall ACC	0.997	0.94	-	+5.7%
SID-Set检测	Overall F1	0.998	0.94	-	+5.8%
SID-Set定位	IoU	0.65	0.44	-	+21%abs
SID-Set定位	AUC	0.99	0.87	-	+12%abs
跨数据集8个均值	Avg IoU	0.47	0.38	0.34~0.39	+13%
跨数据集8个均值	Avg F1	0.58	0.45	0.39~0.45	+19%

消融实验¶

配置	关键指标	说明
α=0.5（默认）	CSS 0.853	全局语义与局部伪造线索的最优平衡点
α=0 (仅mask区域)	CSS 0.821	缺少全局语义上下文
α=1 (仅全图)	CSS 0.798	无mask引导，回退到普通VLM
解冻CLIP微调	语言质量↓	破坏跨模态对齐
用预测mask替代GT	CSS 0.842	与GT(0.853)差距极小，框架鲁棒

关键发现¶

解耦比端到端更好——看似"更简单"的管线反而性能更强，因为消除了CLIP偏差干扰
定位mask对VLM可解释性的增益显著：GPT-5评分整体2.36 vs SIDA 1.44（+63.9%）
在人类偏好研究中65.2%的评估者选择本文方法的解释

亮点与洞察¶

VLM偏向语义合理性而非真实性的核心发现可能影响整个AIGC检测领域——凡是用VLM做异常/伪造检测的工作都应注意这一偏差
"检测结果帮助解释"的反向信息流设计巧妙——mask显式编码伪造概念，简化VLM训练优化
跨数据集泛化能力突出——在8个未见数据集上均表现优异
框架对Stage-1定位误差鲁棒（预测mask vs GT mask几乎同等效果）

局限与展望¶

Stage-1定位严重失败时会级联影响Stage-2解释质量（虽然实验显示一定鲁棒性）
两阶段训练增加工程复杂度，未来可探索单阶段解耦设计
Stage-2仍使用frozen CLIP编码器，可能在某些细粒度场景下限制语言生成质量
GPT-5自动评估的可靠性和偏差需要更多验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ VLM语义合理性偏差这一insight极具价值，解耦设计反直觉但有效
实验充分度: ⭐⭐⭐⭐⭐ 9个数据集、检测+定位+可解释性三维度、人类偏好研究+GPT评估
写作质量: ⭐⭐⭐⭐⭐ 动机分析（余弦相似度验证）有说服力，方法描述清晰
价值: ⭐⭐⭐⭐⭐ 对AIGC时代图像真实性验证有重要实用价值，insight可迁移