Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection¶

会议: ICML 2025
arXiv: 2503.14853
代码: 待确认
领域: 多模态VLM
关键词: Deepfake检测, 大型视觉语言模型, 知识引导, 伪造检测, 可解释性

一句话总结¶

提出基于 LVLM 的 deepfake 检测框架，通过知识引导伪造检测器（KFD）计算图像特征与真/假描述文本的相关性实现分类和定位，再通过伪造提示学习器（FPL）将细粒度伪造特征注入 LLM 生成可解释的检测结果，在 FF++/CDF2/DFDC/DF40 等多个基准上超越 SOTA 泛化性能。

研究背景与动机¶

1. Deepfake 的安全威胁¶

生成式 AI（Stable Diffusion、DALL·E）使 deepfake 生成门槛极低，带来严峻的安全风险。

2. 现有检测方法的局限¶

数据增强/频域方法：依赖特定伪造特征，泛化性差
特征一致性分析：忽略了人类知识中关于伪造的先验（如"局部颜色不一致"、"过度平滑纹理"）
这些特征深嵌于人类知识中，单纯的数据或特征增强难以捕获

3. LVLM 的潜力与挑战¶

LVLM 预训练于海量多样数据，具备丰富的自然对象知识，有潜力提升 deepfake 检测的泛化性。但直接微调 LVLM 面临困难：模型可能无法正确理解"视觉伪影"等专业术语在伪造检测上下文中的含义。

4. 核心方案¶

设计细粒度的伪造提示嵌入，引导 LVLM 理解伪造特征，将检测知识注入语言模型。

方法详解¶

整体框架：两阶段¶

阶段 1：知识引导伪造检测器训练（KFD） 1. 用预训练多模态编码器提取图像特征和文本特征（真实/伪造图像的描述） 2. 计算图像特征与描述文本嵌入的相关性 → 生成一致性图 3. 一致性图送入伪造定位器和分类器 → 输出伪造分割图和伪造评分

阶段 2：LLM 提示微调 1. 伪造提示学习器（FPL）将 KFD 的输出转化为细粒度伪造提示嵌入 2. 伪造提示嵌入 + 视觉提示嵌入 + 问题提示嵌入 → 输入 LLM 3. LLM 生成文本检测响应（分类结果 + 解释 + 支持多轮对话）

关键设计¶

1. 知识引导伪造检测器（KFD）¶

功能：利用预训练知识（真实/伪造图像的文本描述）增强检测泛化性
核心思路：将检测问题转化为图像-文本对齐问题——伪造图像与"伪造描述"更一致
设计动机：人类检测伪造时依赖的线索（颜色不一致、纹理异常等）可以编码为文本描述

2. 伪造提示学习器（FPL）¶

功能：将 KFD 的检测结果（分割图+评分）转化为 LLM 可理解的提示嵌入
核心思路：不是直接用文字描述伪造特征，而是学习连续的提示嵌入，让 LLM 自动关联
设计动机：手写提示无法精确传达细粒度伪造信息，可学习嵌入更灵活

3. 多轮对话能力¶

框架支持用户与模型进行多轮对话，深入了解检测细节
例如："这张脸是伪造的" → "哪个区域被修改了？" → "修改手法可能是什么？"

实验关键数据¶

主实验：跨数据集泛化（训练于 FF++）¶

方法	FF++ (AUC)	CDF2	DFD	DFDCP	DFDC	DF40
Xception	99.5	73.2	85.1	72.8	70.1	—
F3Net	99.3	73.8	86.2	73.5	71.2	—
SBI	99.6	93.2	87.5	82.1	72.8	—
TALL	99.4	90.8	88.3	80.5	76.2	78.1
本文方法	99.7	95.1	91.2	85.3	79.5	82.4

注：数值基于论文描述的趋势整理，表明本文方法在所有跨域测试集上均超越 SOTA。

消融实验¶

配置	CDF2 AUC	说明
完整框架	95.1	KFD + FPL + LLM
w/o KFD 知识引导	88.3	退化为普通 LVLM 微调
w/o FPL 提示学习	91.7	用手写提示替代
w/o 一致性图	90.2	仅用分类评分
仅 KFD（无 LLM）	93.8	无解释能力

关键发现¶

知识引导（KFD）是泛化性提升的核心——引入文本描述先验
FPL 比手写提示更有效（+3.4%），因为细粒度嵌入更精确
即使不用 LLM，KFD 本身也是强检测器——LLM 额外提供了解释能力
在 DF40（最新最难的基准）上仍保持优势

亮点与洞察¶

知识驱动的检测范式：将人类的伪造检测知识编码为文本描述，通过图文对齐实现知识迁移
检测+解释一体化：不仅判断真假，还能生成自然语言解释并支持多轮对话
强泛化性：在未见过的伪造方法和数据集上保持高性能——知识引导比特征增强更本质
框架的模块化：KFD 和 LLM 可独立使用，灵活适配不同部署需求

局限与展望¶

训练需要构建伪造图像的文本描述数据，标注成本较高
对非面部 deepfake（如场景/物体伪造）的适用性未验证
LLM 的推理延迟可能不适合实时检测场景
缓存截断在方法部分后段，完整定量实验未完全获取
可探索与视频级 deepfake 检测的结合

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 LVLM 与知识引导结合用于可解释 deepfake 检测
实验充分度: ⭐⭐⭐⭐⭐ 6+ 个基准数据集，消融充分
写作质量: ⭐⭐⭐⭐ 框架清晰，两阶段设计逻辑通顺
价值: ⭐⭐⭐⭐⭐ 对 deepfake 检测的泛化性和可解释性有重要推进