Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection¶
会议: ICML 2025
arXiv: 2503.14853
代码: 待确认
领域: 多模态VLM
关键词: Deepfake检测, 大型视觉语言模型, 知识引导, 伪造检测, 可解释性
一句话总结¶
提出基于 LVLM 的 deepfake 检测框架,通过知识引导伪造检测器(KFD)计算图像特征与真/假描述文本的相关性实现分类和定位,再通过伪造提示学习器(FPL)将细粒度伪造特征注入 LLM 生成可解释的检测结果,在 FF++/CDF2/DFDC/DF40 等多个基准上超越 SOTA 泛化性能。
研究背景与动机¶
1. Deepfake 的安全威胁¶
生成式 AI(Stable Diffusion、DALL·E)使 deepfake 生成门槛极低,带来严峻的安全风险。
2. 现有检测方法的局限¶
- 数据增强/频域方法:依赖特定伪造特征,泛化性差
- 特征一致性分析:忽略了人类知识中关于伪造的先验(如"局部颜色不一致"、"过度平滑纹理")
- 这些特征深嵌于人类知识中,单纯的数据或特征增强难以捕获
3. LVLM 的潜力与挑战¶
LVLM 预训练于海量多样数据,具备丰富的自然对象知识,有潜力提升 deepfake 检测的泛化性。但直接微调 LVLM 面临困难:模型可能无法正确理解"视觉伪影"等专业术语在伪造检测上下文中的含义。
4. 核心方案¶
设计细粒度的伪造提示嵌入,引导 LVLM 理解伪造特征,将检测知识注入语言模型。
方法详解¶
整体框架:两阶段¶
阶段 1:知识引导伪造检测器训练(KFD) 1. 用预训练多模态编码器提取图像特征和文本特征(真实/伪造图像的描述) 2. 计算图像特征与描述文本嵌入的相关性 → 生成一致性图 3. 一致性图送入伪造定位器和分类器 → 输出伪造分割图和伪造评分
阶段 2:LLM 提示微调 1. 伪造提示学习器(FPL)将 KFD 的输出转化为细粒度伪造提示嵌入 2. 伪造提示嵌入 + 视觉提示嵌入 + 问题提示嵌入 → 输入 LLM 3. LLM 生成文本检测响应(分类结果 + 解释 + 支持多轮对话)
关键设计¶
1. 知识引导伪造检测器(KFD)¶
- 功能:利用预训练知识(真实/伪造图像的文本描述)增强检测泛化性
- 核心思路:将检测问题转化为图像-文本对齐问题——伪造图像与"伪造描述"更一致
- 设计动机:人类检测伪造时依赖的线索(颜色不一致、纹理异常等)可以编码为文本描述
2. 伪造提示学习器(FPL)¶
- 功能:将 KFD 的检测结果(分割图+评分)转化为 LLM 可理解的提示嵌入
- 核心思路:不是直接用文字描述伪造特征,而是学习连续的提示嵌入,让 LLM 自动关联
- 设计动机:手写提示无法精确传达细粒度伪造信息,可学习嵌入更灵活
3. 多轮对话能力¶
- 框架支持用户与模型进行多轮对话,深入了解检测细节
- 例如:"这张脸是伪造的" → "哪个区域被修改了?" → "修改手法可能是什么?"
实验关键数据¶
主实验:跨数据集泛化(训练于 FF++)¶
| 方法 | FF++ (AUC) | CDF2 | DFD | DFDCP | DFDC | DF40 |
|---|---|---|---|---|---|---|
| Xception | 99.5 | 73.2 | 85.1 | 72.8 | 70.1 | — |
| F3Net | 99.3 | 73.8 | 86.2 | 73.5 | 71.2 | — |
| SBI | 99.6 | 93.2 | 87.5 | 82.1 | 72.8 | — |
| TALL | 99.4 | 90.8 | 88.3 | 80.5 | 76.2 | 78.1 |
| 本文方法 | 99.7 | 95.1 | 91.2 | 85.3 | 79.5 | 82.4 |
注:数值基于论文描述的趋势整理,表明本文方法在所有跨域测试集上均超越 SOTA。
消融实验¶
| 配置 | CDF2 AUC | 说明 |
|---|---|---|
| 完整框架 | 95.1 | KFD + FPL + LLM |
| w/o KFD 知识引导 | 88.3 | 退化为普通 LVLM 微调 |
| w/o FPL 提示学习 | 91.7 | 用手写提示替代 |
| w/o 一致性图 | 90.2 | 仅用分类评分 |
| 仅 KFD(无 LLM) | 93.8 | 无解释能力 |
关键发现¶
- 知识引导(KFD)是泛化性提升的核心——引入文本描述先验
- FPL 比手写提示更有效(+3.4%),因为细粒度嵌入更精确
- 即使不用 LLM,KFD 本身也是强检测器——LLM 额外提供了解释能力
- 在 DF40(最新最难的基准)上仍保持优势
亮点与洞察¶
- 知识驱动的检测范式:将人类的伪造检测知识编码为文本描述,通过图文对齐实现知识迁移
- 检测+解释一体化:不仅判断真假,还能生成自然语言解释并支持多轮对话
- 强泛化性:在未见过的伪造方法和数据集上保持高性能——知识引导比特征增强更本质
- 框架的模块化:KFD 和 LLM 可独立使用,灵活适配不同部署需求
局限与展望¶
- 训练需要构建伪造图像的文本描述数据,标注成本较高
- 对非面部 deepfake(如场景/物体伪造)的适用性未验证
- LLM 的推理延迟可能不适合实时检测场景
- 缓存截断在方法部分后段,完整定量实验未完全获取
- 可探索与视频级 deepfake 检测的结合
相关工作与启发¶
- vs SBI/TALL:数据增强/频域方法,泛化受限于训练数据分布
- vs BLIP-2/LLaVA:通用 LVLM 不专注伪造检测,本文通过 KFD+FPL 注入领域知识
- vs 传统二分类检测器:仅输出真/假,本文额外提供定位和解释
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将 LVLM 与知识引导结合用于可解释 deepfake 检测
- 实验充分度: ⭐⭐⭐⭐⭐ 6+ 个基准数据集,消融充分
- 写作质量: ⭐⭐⭐⭐ 框架清晰,两阶段设计逻辑通顺
- 价值: ⭐⭐⭐⭐⭐ 对 deepfake 检测的泛化性和可解释性有重要推进