跳转至

Divide and Conquer: Reliable Multi-View Evidential Learning for Deepfake Detection

会议: ICML 2026
arXiv: 2606.01885
代码: https://github.com/kxl0825/DiCoME.git (有)
领域: AI 安全 / Deepfake 检测
关键词: 深度伪造检测、多视图学习、证据学习、几何正交分解、不确定性量化

一句话总结

本文提出 DiCoME 框架,先用几何正交投影把 CLIP 语义特征和伪造伪迹特征强制解耦成两路互补"专家视图",再用 Dempster–Shafer 证据融合显式建模两视图间的"认识论冲突"以输出可信的不确定性,在跨数据集和跨伪造方法的 deepfake 检测基准上将平均 AUC 从 0.923 提升到 0.939(cross-dataset)和 0.976(cross-manipulation)。

研究背景与动机

领域现状:随着 GAN 和扩散模型的发展,deepfake 在语义层面已经几乎以假乱真,可供取证的只剩极其微弱的结构性异常痕迹。当前主流方案沿用单视图整体处理范式,用一个 backbone(越来越多地是 CLIP 这类视觉基础模型)把语义内容和伪造痕迹一起编码成纠缠的表征,再接 Softmax 二分类。

现有痛点:作者把这类范式的失败模式提炼为 Semantic Masking Effect(语义掩蔽效应)——由于视觉 backbone 天生为语义不变性而优化,identity 等高幅值语义特征会主导整个特征空间(\(\|f_s\| \gg \|f_a\|\)),微弱的伪迹信号在梯度下行时被当作捷径噪声忽略。结果是模型在见过的 manipulation 上自信满满,但一遇到未见过的伪造方法或跨域数据就崩盘,而且 Softmax 还会把这种崩盘伪装成高置信的预测。

核心矛盾:deepfake 检测的本质是"在强语义背景上找微弱异常",但常规 backbone 把语义维度和伪迹维度纠缠在一起,feature-level 融合(如 RGB+Frequency、Global+Local)只是把两个高度相关的视图拼起来——所谓的"Structure Expert"其实只是在重复"Content Expert",既没有真正的互补性,也没法在冲突时给出 calibrated uncertainty。已有的 Effort(ICML'25)用 SVD 正交化做了一步尝试,但它依赖全局低秩假设,对样本级的细微伪迹一刀切。

本文目标:(1) 在特征层面把伪迹从语义中彻底剥离,得到两路解相关且互补的证据;(2) 在决策层面把"两个专家意见冲突"显式建模为高不确定性,而不是被 Softmax 压成一个虚假的高置信预测。

切入角度:把伪迹严格定义为"语义子空间的正交补"——这是一个几何硬约束,比软正则化(如对比学习)更彻底;再借 Subjective Logic 把每个视图的输出参数化为 Dirichlet 分布,用 Dempster–Shafer 理论显式算出"冲突系数"。

核心 idea:用几何正交投影把 CLIP 语义残差中的语义泄漏部分减掉,得到纯净的伪迹视图;然后用证据融合让两个视图的冲突直接抬高 epistemic uncertainty,从而在未知攻击面前主动"承认不知道"。

方法详解

整体框架

输入一张人脸图,DiCoME 走两阶段流水线:

  1. Divide(多视图构造):先用 LoRA 微调的 CLIP ViT-L/14 提取语义特征 \(f_s\);再用一个轻量 \(\beta\)-VAE 在特征空间(而非像素空间)把 \(f_s\) 投影到"语义流形"上得到重建 \(f_c\);残差 \(f_r = f_s - f_c\) 即原始异常信号,但还混着语义泄漏;最后用几何正交投影\(f_r\) 中沿 \(f_s\) 方向的分量减掉,得到纯净伪迹特征 \(f_a\)
  2. Conquer(证据融合决策):把 \(f_s\)\(f_a\) 分别送入两个 evidential head(MLP+Softplus),生成 Dirichlet 参数 \(\alpha^v\),导出 subjective opinion \(T^v = \{b^v, u^v\}\)(belief + uncertainty);用 Dempster–Shafer orthogonal sum \(T^1 \oplus T^2\) 融合,得到全局 belief 和 uncertainty;推理时取 \(p_k = b_k + u/K\) 作为类概率,\(u\) 作为风险拒识分数。

关键设计

  1. Geometric View Purification(几何视图净化)

    • 功能:把 CLIP 语义残差 \(f_r\) 中"伪装成异常的语义泄漏"硬性剥离,得到与 \(f_s\) 严格正交的纯净伪迹特征 \(f_a\)
    • 核心思路:先用 \(\beta\)-VAE 在 CLIP 特征空间重建一个"语义流形版本" \(f_c\)(重建损失用 cosine 距离而非 \(\ell_2\),因为 CLIP embedding 是球面的、信息在方向上);得到原始残差 \(f_r = f_s - f_c\) 后,按向量投影定理算出 \(f_r\) 沿 \(f_s\) 方向的分量 \(f_r^{\parallel} = \frac{\langle f_r, f_s \rangle}{\|f_s\|_2^2} f_s\),再减掉得到 \(f_a = f_r - f_r^{\parallel}\)。这一步保证 \(\langle f_a, f_s \rangle = 0\),即 \(f_a\) 落在语义子空间的正交补 \(S^{\perp}\) 上。
    • 设计动机:以往多视图方法(FDML 的 attention 引导、Effort 的全局 SVD)都是软约束或粗粒度全局约束,无法逐样本地保证解相关。把"伪迹 = 语义正交补"作为几何硬约束,等于给"Structure Expert"一个免疫语义干扰的特征空间,从根上消解 Semantic Masking Effect,也为后续 DS 融合提供"解相关证据流"这一理论前提。
  2. Evidential Opinion Generation(证据观点生成)

    • 功能:把每个视图的特征转成 Dirichlet 分布上的 subjective opinion,让模型不仅给出类概率,还给出 epistemic uncertainty。
    • 核心思路:对视图 \(v \in \{1, 2\}\),evidential head 输出非负证据向量 \(e^v = \text{Softplus}(W^v f_v + C^v)\);Dirichlet 参数 \(\alpha_k^v = e_k^v + 1\),总强度 \(S^v = \sum_k \alpha_k^v\);导出 belief \(b_k^v = e_k^v / S^v\) 和 uncertainty \(u^v = K/S^v\),满足 \(\sum_k b_k^v + u^v = 1\)。当某视图缺乏判别证据时 \(e_k \to 0\)\(u^v \to 1\),天然表达"我不知道"。训练时用 Bayes risk 形式的 evidential loss \(\mathcal{L}_{fit} = \sum_k y_{i,k}(\psi(S_i) - \psi(\alpha_{i,k}))\),并加 KL 正则把非目标类的证据压向均匀先验,正则权重按 \(\lambda_t = \min(1, t/T)\) 退火。
    • 设计动机:Softmax 把"证据不足"和"证据冲突"两种本质不同的不确定性都压成同一个 confidence 分数,遇到 unseen attack 必然 overconfident;用 Dirichlet 参数化能把"有多少证据"显式编码进 \(S^v\),为下一步 DS 融合提供数学上 well-defined 的 belief/uncertainty。
  3. Conflict-Aware Evidential Fusion(冲突感知证据融合)

    • 功能:用 Dempster–Shafer 组合规则把两个专家的 opinion 融合成最终决策,并把视图间冲突显式转换为不确定性。
    • 核心思路:融合公式为 \(b_k = \frac{1}{1-\mathcal{C}}(b_k^1 b_k^2 + b_k^1 u^2 + b_k^2 u^1)\)\(u = \frac{u^1 u^2}{1-\mathcal{C}}\),其中冲突系数 \(\mathcal{C} = \sum_{i \ne j} b_i^1 b_j^2\) 量化两视图分歧。三种情形被自然处理:(a) 一致放大:两视图都强信且方向一致时 \(b_k^1 b_k^2\) 占主导,融合 belief 协同增长,\(u\) 以乘积速率衰减;(b) 知识互补:一方强信另一方无知时 cross-term \(b_k^1 u^2\) 让强信方"代为投票";(c) 冲突感知:两视图相反时 \(\mathcal{C}\) 显著上升,normalization 抑制 belief 同时抬高 \(u\),给出可拒识的风险信号而不是盲目硬判。
    • 设计动机:常用的均值/拼接融合会把冲突信息"平均掉",反而让模型对 hard sample 更自信。DS 融合在这里的关键不是"加权平均",而是嵌入了一套显式的"如何处理证据冲突"的逻辑,正好接住第 1、2 步构造的解相关解耦视图。

损失函数 / 训练策略

总损失 \(\mathcal{L}_{total} = \mathcal{L}_{edl} + \lambda_{vae} \mathcal{L}_{vae}\),其中 \(\mathcal{L}_{vae} = \mathcal{L}_{align} + \beta \mathcal{L}_{kld}\)\(\mathcal{L}_{align} = 1 - \cos(f_s, f_c)\) 强制 \(\beta\)-VAE 在角度而非幅值上对齐 CLIP 特征,\(\mathcal{L}_{kld}\) 是标准 VAE 的高斯先验 KL。骨干为 CLIP ViT-L/14,LoRA 微调;AdamW lr=1e-4,batch 128,单卡 A100;只在 FaceForensics++ c23 上训练,零样本迁移到所有评测集;推理用 video-level AUC。

实验关键数据

主实验

在 6 个跨数据集(CDFv2/DFD/DFDC/DFo/WDF/CDFv3)和 8 种跨 manipulation(DF40 子集:UniFace/BleFace/MobSwap/e4s/FaceDan/FSGAN/InSwap/SimSwap)上对比 12 个 baseline。

评测设置 指标 DiCoME Effort (ICML'25) GenD (WACV'26) ProDet (NIPS'24)
Cross-dataset Avg AUC video AUC 0.939 0.907 0.923 0.821
Cross-manipulation Avg AUC video AUC 0.976 0.940 0.958 0.867
CDFv2 video AUC 0.977 0.956 0.960 0.926
DFDC video AUC 0.882 0.843 0.871 0.707
DFo video AUC 0.993 0.977 0.989 0.879

cross-dataset 平均比次优 GenD 高 1.6 点,cross-manipulation 平均高 1.8 点;最难的 DFDC 提升近 4 点,是整组里最显著的。

消融实验

子表 配置 CDFv2 DFDC MFS Avg
(a) (A) 只用 \(f_s\)(单视图 CLIP) 0.927 0.856 0.933 0.905
(a) (B) \(f_s + f_s\)(双拷贝,无新视图) 0.954 0.867 0.929 0.917
(a) (C) \(f_s + f_r\)(用原始残差,无正交化) 0.956 0.860 0.951 0.922
(a) Ours \(f_s + f_a\)(正交净化) 0.977 0.882 0.956 0.938
(b) (D) \(\mathcal{L}_{ce}\) + Mean Fusion 0.956 0.874 0.942 0.924
(b) (E) \(\mathcal{L}_{edl}\) + Mean Fusion 0.961 0.878 0.941 0.927
(b) Ours \(\mathcal{L}_{edl}\) + DS-Conflict 0.977 0.882 0.956 0.938
(c) (F) 去 \(\mathcal{L}_{align}\) 0.955 0.866 0.944 0.922
(c) (G) 去 \(\mathcal{L}_{kld}\) 0.948 0.872 0.944 0.921

关键发现

  • 正交投影是最大贡献来源:(a) 表里 (C)→Ours 仅多了一步几何正交化就把平均 AUC 从 0.922 抬到 0.938(+1.6),证明原始残差 \(f_r\) 确实严重泄漏语义,软约束/无约束都不够。
  • DS 融合本身就比 Mean 强:(b) 表里 EDL+Mean 仅比 CE+Mean 高 0.3 点,但换成 DS-Conflict 又再涨 1.1 点;说明真正的增益不在"换了 Dirichlet 输出",而在"显式建模冲突"。
  • 角度对齐 > 幅值对齐:去掉 cosine \(\mathcal{L}_{align}\) 后 AUC 掉得比去 KL 还多,印证 CLIP 球面 embedding 的特性,\(\ell_2\) 重建会被非语义的幅值扰动带偏。
  • uncertainty 真的能用:风险-覆盖曲线显示在 DFD 上拒掉最不确定的 10% 样本能带来显著精度跃升;t-SNE 可视化也确认原始 CLIP 把真假样本严重混叠,几何净化后形成宽决策边界的紧凑簇;feature 相关性热图显示正交化后两视图近似解相关。

亮点与洞察

  • 把"伪迹"严格几何定义为"语义正交补":这是个非常干净的归纳偏置,比 attention 引导、对比解耦、SVD 全局低秩都更彻底——它对每个样本都强制成立,且实现就是一行向量投影,几乎没有额外参数。
  • 冲突即不确定性:DS 融合最妙的地方是把"两个 expert 互相说对方撒谎"这件事变成了一个数学上 well-defined 的不确定性来源(冲突系数 \(\mathcal{C}\)),而不是被 Softmax 拍成一个虚假的高置信。这对开放世界的 unseen attack 检测特别贴合,因为新攻击恰恰会让两个视图给出矛盾意见。
  • CLIP 特征的"特征空间 VAE 重建"是个可迁移的 trick:避开像素空间 VAE 的高维难训问题,又利用了 CLIP 已经压缩好的语义先验,比 RECCE 那种像素重建优雅得多。这套"基础模型特征 + 轻量 VAE 投影 + 残差解耦"的范式很容易迁移到其他"在强先验背景下找微弱异常"的任务(医学影像 OOD、工业缺陷检测、对抗样本检测等)。
  • 训练只在 FF++ c23 一个域上做:所有提升都是 zero-shot 迁移得到的,这种"一域训练、多域评测"的协议在 deepfake 检测领域最能反映真实泛化能力。

局限性 / 可改进方向

  • 正交化基于单一方向 \(f_s\):把整个语义子空间塌缩为一根向量,对于 identity、表情、光照等多个独立语义因子是粗暴近似——理论上把 \(f_s\) 换成 SVD 出来的前 \(k\) 主方向会更合理(但作者批评了 Effort 的全局 SVD,二者的取舍值得专门实验)。
  • \(\beta\)-VAE 重建质量决定一切:若 \(f_c\) 重建不足,残差 \(f_r\) 里的"非语义噪声"和"伪迹"会一起被当作 \(f_a\) 送给 Structure Expert,正交化只能保证"和 \(f_s\) 正交",不保证"是伪迹"。论文没汇报 \(\beta\) 系数和潜变量维度的敏感性。
  • 只在人脸 deepfake 上验证:方法本身是任务无关的,但全身 deepfake、AI 生成全图(如 SDXL 输出)、视频时序伪迹是否同样适用没有评测。
  • 二分类下 Dirichlet 退化为 Beta 分布:DS 融合在 \(K = 2\) 时的"冲突感知"优势其实是受限的,扩展到多类伪造源识别(区分是 GAN 还是 diffusion 生成的)应能更充分发挥这套机制。

相关工作与启发

  • vs Effort (ICML'25):都用正交分解隔离伪迹,但 Effort 用全局 SVD 强加 uniform low-rank,会丢失样本级细节;DiCoME 用样本级单向量投影,且加 evidential 不确定性。结果是 cross-dataset Avg 从 0.907 提到 0.939。
  • vs FDML / 一般 multi-view fusion:FDML 等用 attention 引导软约束做特征级融合,仍受语义泄漏污染;DiCoME 用几何硬约束保证两视图解相关,再用 DS 在决策级(而非特征级)融合,避免了"互相回声"问题。
  • vs RECCE / 像素级重建检测:RECCE 在像素空间做 reconstruction,对高分辨率人脸难训且对压缩鲁棒性差;DiCoME 把重建放到 CLIP 特征空间,既继承 CLIP 的语义鲁棒性,又把重建难度降到 \(d\) 维。
  • vs 一般 Evidential Deep Learning:标准 EDL 是单视图任务(图像分类、回归)的不确定性估计工具,本文把它升级为"多视图证据冲突仲裁器",思想可迁移到任何"多个不可靠 expert 协同决策"的安全敏感任务。

评分

  • 新颖性: ⭐⭐⭐⭐ "伪迹 = 语义正交补 + 冲突即不确定性"这套组合在 deepfake 检测里是新的,但正交投影和 EDL 单独都不算新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 6 个跨数据集 + 8 种 manipulation + 三套消融 + uncertainty/Grad-CAM/t-SNE/相关性热图多角度可视化,相当完整
  • 写作质量: ⭐⭐⭐⭐ "Semantic Masking Effect"和"Divide-and-Conquer"两个概念框架立得很稳,公式推导清晰,但部分句子(尤其 intro)略冗长
  • 价值: ⭐⭐⭐⭐⭐ cross-dataset SOTA 提升 1.6 点、DFDC 提升 4 点,且 uncertainty 实测可用于风险拒识,对部署可信度有直接价值