Investigating Self-Supervised Representations for Audio-Visual Deepfake Detection¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://bit-ml.github.io/ssr-dfd （项目主页）
领域: AIGC 检测 / 音视频深度伪造 / 自监督表征
关键词: 深度伪造检测、自监督表征、线性探针、异常检测、可解释性

一句话总结¶

这是一篇系统性"调查"论文：作者把 12 个现成的自监督编码器（音频、视觉、音视频）冻结，只在上面训一层线性探针，从「检测有效性、可解释性、跨模态互补性」三个维度横向评测它们做音视频深度伪造检测的能力，发现"音频信息驱动"的表征泛化最好（BRAVEn 的视觉编码器拿到 SOTA），而真实世界数据的难点来自数据集本身的内在难度而非特征抓了浅层捷径。

研究背景与动机¶

领域现状：音视频深度伪造检测已经有大量方法，从判别式分类器到挖掘音视频跨模态不一致的技术。近年的趋势是把强大的自监督（SSL）骨干拿来用——图像检测用 CLIP、音频检测用 Wav2Vec2、音视频检测用 AV-HuBERT。这些 SSL 表征不需要任务标注就能编码丰富的模态结构，天然适合检测。

现有痛点：以往工作要么孤立地用某一个 SSL 特征，要么把它埋在一个复杂架构里，导致两个问题难以回答——到底是哪个特征本身有用，还是上层复杂网络在起作用？更要命的是，已有研究警告：真假样本之间哪怕是很细微的分布差异（比如开头的静音段 leading silence）都会被分类器当成捷径（spurious correlation）利用，而且这种捷径可能跨数据集持续存在，让结果"虚高"。标准的"训分类器看 AUC"评测无法识别这种作弊。

核心矛盾：高 AUC ≠ 抓住了真正的伪造取证线索。监督式训练会奖励任何能区分两类的信号，包括与伪造无关的数据集 artifact。所以光看检测分数无法判断一个 SSL 表征"看的是不是该看的地方"。

本文目标：把问题拆成三个研究问题——(RQ1) 这些 SSL 特征对检测到底有多有用、能否跨域泛化、能否迁移到异常检测这个相关任务；(RQ2) 模型在看哪里，是否对准了被篡改区域、是否和人类标注一致；(RQ3) 不同特征是否互补，多个都能成功的特征是靠相同线索还是编码了不同信息。

切入角度：用最小化的上层参数（线性探针）来"直接测量表征里已经编码了多少信息"，再配一套多维评测套件去戳穿捷径。把上层做到极简，结论才能干净地归因到特征本身。

核心 idea：不发明新检测器，而是建立一套"线性探针 + 异常检测代理任务 + 时空可解释性 + 互补性分析"的多面评测协议，公平地横评一大批 SSL 表征，把"哪些特征真正抓住了伪造取证线索"这件事讲清楚。

方法详解¶

整体框架¶

本文不是一个新模型，而是一套评测方法学。深度伪造检测被建模为二分类：把输入视频 \(x\) 映射到标签 \(y\)（1 为假、0 为真）。所有被评测的表征都被冻结，只在它上面学极少量参数，这样不同特征是在可比的设置下竞争。检测主干由三步组成：① 用冻结编码器抽取局部时序特征（每帧一个嵌入 \(\omega(x)_t\)）；② 套一个可学习的线性分类器 \(w\)；③ 用池化函数把逐帧预测聚合成视频级分数。

在这个统一主干之上，作者从三个维度展开评测：用线性探针 + 异常检测代理任务测「有用性与鲁棒性」（RQ1）；用时序/空间可解释性测「模型在看哪里」（RQ2）；用预测相关性 + 融合增益测「互补性」（RQ3）。三条线共用同一套冻结特征，因此结论能横向对齐。被评测的 12 个编码器覆盖纯音频（Wav2Vec XLS-R、Auto-AVSR ASR、AV-HuBERT(A)、BRAVEn(A)）、纯视觉（CLIP、FSFM、VideoMAE、Auto-AVSR VSR、AV-HuBERT(V)、BRAVEn(V)）与音视频（Auto-AVSR、AV-HuBERT）三类。

关键设计¶

1. 线性探针 + log-sum-exp 池化：把检测能力干净地归因到特征本身

针对"复杂架构掩盖了特征真实贡献"的痛点，作者把上层压到极简——只学一个线性层。逐帧特征 \(\omega(x)_t\) 经线性分类器后，用 log-sum-exp 聚合成视频级分数：

\[s(x; w) = \log \sum_t \exp\left(w^\top \omega(x)_t\right)\]

log-sum-exp 近似 max 函数，意味着只要视频里有一帧/一个区域被判为假，整段就倾向于判假——这恰好匹配局部篡改（如 AV-Deepfake1M 只改了转录文本对应的几秒）的检测需求。线性层用视频级标签上的交叉熵训练。虽然有些表征本身已经编码了全局时序信息，但这种"局部打分 + max 池化"的设计让模型天然具备弱监督定位能力（见设计 3）。作者还验证：把线性层换成更强的 Transformer 分类器结果相近，说明特征比分类器更重要，进一步支持"用极简上层来归因"的合理性。

2. 仅用真实数据的异常检测代理任务：打破真假不对称、绕开捷径

监督分类器会利用真假样本间任何细微的分布差异作弊。为绕开这点，作者设计两个只在真实数据上训练的代理任务，假设"偏离真实数据分布即为伪造"。第一个是下一帧预测（next-token prediction, NTP）：用一个 4 层 4 头、特征维 512、前馈维 1024 的 decoder-only Transformer，在真实视频上以均方误差预测下一帧表征 \(x_t\) 给定历史 \(x_1,\dots,x_{t-1}\)；测试时取逐帧 MSE 的最大值作为视频伪造分。第二个是音视频同步（synchronization）：用一个带 LayerNorm 和 ReLU 的四层 MLP 对齐网络 \(\phi\)，把 L2 归一化的音频特征 \(a\) 和视觉特征 \(v\) 拼接后打分，训练目标是让音频帧 \(a_i\) 与对应视频帧 \(v_i\) 对齐的概率高于与邻域帧 \(v_k\)（\(k\in N(i)\)）：

\[p(v_i \mid a_i) = \frac{\exp\big(\phi(a_i, v_i)\big)}{\sum_{k\in N(i)} \exp\big(\phi(a_i, v_k)\big)}\]

测试时把逐帧对齐分取反作为伪造度，再用 log-sum-exp 池化。这两个任务因为没见过假样本，无法学到真假之间的捷径——实验证实：当用随机初始化特征跑这两个代理任务时，同步任务直接掉到随机水平、NTP 掉到中等，正好暴露了监督模型在随机特征上仍"虚高"的捷径问题。

3. 时序与空间可解释性：检验模型是不是看了该看的地方

针对"高 AUC 不代表看对地方"的痛点，作者从线性分类器里直接抽出隐式定位。由于池化是 log-sum-exp（输入的简单变换），视频级预测可看作逐帧预测的聚合，于是时序解释直接用逐帧分 \(s_t = w^\top \omega(x)_t\) 衡量哪个时间段贡献最大，再和 AV1M 的篡改片段标注比对（把每帧当独立样本算定位 AUC）。空间解释则利用逐帧分类器是线性的这一点：若逐帧特征是 patch 特征的平均，就把线性分类器传播到 patch 级；若是非线性聚合则改用 Grad-CAM。空间解释和 ExDDV 数据集里"人类点击标注伪造 artifact 位置"对比，用 GradCAM 峰值坐标与人类点击坐标的平均绝对误差（MAE）量化人机对齐度。因为分类器只用视频级监督训练，这种比对本身也构成一种弱监督定位评测。

4. 互补性分析：判断不同特征是否编码了不同信息

RQ3 问的是"既然多个特征都能成功，它们靠的是相同还是不同的线索"。作者从两个角度量化：① 算每对模型预测输出之间的 Pearson 相关系数，相关弱说明编码了不同信息；② 测多模型组合（晚融合，预测平均）的下游性能增益。结论是相关性普遍弱到中等，且增益随互补性增大而增大——但有例外（VideoMAE 从更对齐的 CLIP 得到的增益反而比从更互补的 AV-HuBERT(V) 更大），说明融合效果比"单看互补性"更微妙。

损失函数 / 训练策略¶

线性探针用视频级标签的交叉熵训练；NTP 代理任务在真实视频上用 MSE 训练 decoder-only Transformer；同步代理任务用上面的对比式对齐目标（公式 2）在真实数据子集（VoxCeleb）上训练。所有 SSL 编码器全程冻结，只学上层最小参数。

实验关键数据¶

评测用四个数据集：FakeAVCeleb（FAVC，学术、换脸/口型/语音克隆）、AV-Deepfake1M（AV1M，百万级、局部篡改）、AVLips（AVL，口型同步伪造）、DeepfakeEval-2024（DFE-2024，真实世界、52 种语言、篡改类型未知）。指标用 AUC（随机基线 50%）。

主实验（线性探针的跨域泛化 + 与 SOTA 对比）¶

下表为各表征在 9 种"训练集→测试集"组合上的平均跨域（OOD）AUC（Tab. 2 最后一列）的代表性摘录：

表征	模态	平均 OOD AUC	DFE-2024 最佳 OOD
BRAVEn (V)	视觉(音频驱动)	84.6	76.0
AV-HuBERT (V)	视觉(音频驱动)	80.0	67.7
AV-HuBERT (AV)	音视频	78.2	54.3
Wav2Vec2	音频	70.8	58.6
AV-HuBERT (A)	音频	67.3	48.3
CLIP ViT-L/14	视觉	63.2	43.5
AV-HuBERT (A) 随机	音频	63.5	46.4
FSFM	视觉	55.0	43.5

与 SOTA 方法的对比（统一在 AV1M 23k 样本上训练，报跨数据集平均 AUC）：

方法	监督?	All4 平均	Last3 平均(不含 AV1M)
BRAVEn (V) + 线性探针	是	91.1	90.5
AV-HuBERT (AV) + 线性探针	是	84.5	79.4
Wav2Vec2 + 线性探针	是	78.7	71.6
SpeechForensics [44]	否	84.1	89.4
AuViRe [41]	否	81.1	74.7
RealForensics [22]	否	75.2	80.1
AVFF [58]	是	74.8	67.1
AVAD [19]	否	71.5	77.7

一个冻结 BRAVEn(V) 编码器 + 一层线性探针就超过了这些更复杂的专用方法。只有 SpeechForensics 接近，但作者指出那是因为它本质上也在用 AV-HuBERT 类特征并把检测建模成异常检测。

异常检测代理任务（消融/分析，AV1M 上 AUC %）¶

特征	监督(Sup)	下一帧预测(NTP)	同步(Sync)
AV-HuBERT (A)（单）	99.0	90.6	N/A
Wav2Vec2（单）	96.6	56.6	N/A
AV-HuBERT (V)（单）	64.1	46.1	N/A
CLIP（单）	71.1	47.3	N/A
AV-H (A+V) 随机	74.0	64.4	50.0
AV-H (A+V)	97.2	84.5	87.3
AV-H (A) + CLIP	99.0	86.9	50.0
W2V2 + AV-H (V)	96.2	60.6	86.5

随机特征在监督设置下还能虚高（如 AV-H(A+V) 随机监督 74.0），但一进异常检测：同步任务直接掉到随机 50.0、NTP 掉到中等 64.4——证实代理任务确实不吃捷径。要拿到像样的异常检测分，需要特定特征组合：NTP 离不开 AV-HuBERT(A)，同步离不开 AV-HuBERT(V)，唯一接近监督水平的是 AV-HuBERT(A)+AV-HuBERT(V) 的同步模型（87.3）。

关键发现¶

音频信息驱动的表征泛化最好：在缺少音频篡改的 AVLips/DFE-2024 上，"用音频信号训练但抽视觉特征"的 AV-HuBERT(V)、BRAVEn(V) 最强；BRAVEn(V) 拿下 SOTA。但纯音频特征只在数据集含语音级篡改时才好。
随机特征不随机：随机初始化的模型 AUC 显著高于 50%，说明架构本身能隐式编码可区分信息——但 RQ2 分析显示这是捷径（如开头静音段），这也解释了为何随机音频模型比随机视觉模型表现更好。
时序解释普遍对准了篡改区域：多数特征的定位 AUC 接近其分类 AUC，只有随机模型和 FSFM 大幅掉点。音频模型确实会盯开头静音，但同时也聚焦被篡改区域；Wav2Vec2 倾向选过渡边界；AV-HuBERT(V) 预测最干净，CLIP 最噪。
空间解释部分对准人类：CLIP-based 模型（ExDDV 上 71.3% AUC）的 GradCAM 多落在前额，人类标注多落在眼睛和嘴；MAE 优于"帧中心"基线但不如专门的点击预测模型——不过该预测模型也只比"人脸中心"略好，暗示人类标注本身可能没提供多少超出"artifact 在脸上某处"的定位信息。关键是模型并未依赖背景等虚假特征。
视觉模型比音频模型更互补：跨模型相关性普遍弱到中等；音频模型（AV-HuBERT(A) 与 Wav2Vec2）彼此相关性最高。AV-HuBERT(V) 因只看口型且与音频联合训练，反而和音频模型更相关。
真实世界数据是真的更难：DFE-2024 即使最佳 in-domain 也只有 75.5% AUC，最佳 OOD 76.0%。这个差距不是因为特征抓了浅层 pattern（时空解释都对准了语义 artifact），而是数据集本身的内在难度与多样性（缺模态、域偏移）。

亮点与洞察¶

"特征 > 分类器"的干净证据：把上层换成 Transformer 结果相近，说明这一类任务里真正决定性能的是骨干表征，给"该投资预训练还是投资检测头"的工程取舍提供了直接答案。
异常检测当作"捷径探测器"：只用真实数据训练，天然无法学真假捷径，于是成了一面照妖镜——把监督设置下虚高的随机特征打回原形。这个思路可迁移到任何怀疑"分布捷径"的检测/分类评测中。
从线性探针直接读出定位：因为分类器线性 + 池化是 log-sum-exp，逐帧分和 patch 级贡献可以零额外训练地解析出来，等于白送一个弱监督定位评测，是很省事的可解释性 trick。
"音频驱动的视觉特征"反直觉地最强：AV-HuBERT(V)/BRAVEn(V) 抽的是视觉（口型）但训练时被音频信号塑形，结果在无音频篡改的数据上反而最能泛化——提示口型与语音的联合自监督学到了跨模态一致性这一通用伪造线索。

局限与展望¶

真实世界泛化仍是硬骨头：无论被测表征还是现有方法都难以泛化到 DFE-2024。作者归因于真实数据的难度与多样性（缺模态、视频域偏移），并指出需要显式建模这种多样性的专门方案。
评测以线性探针为主：虽然作者验证了 Transformer 上层结果相近，但极简上层可能低估了某些需要非线性组合才能释放的表征潜力。
空间解释的"地面真值"本身有限：人类点击标注被发现没比"人脸中心"提供多多少定位信息，使得空间对齐这一维度的结论需谨慎解读（⚠️ 这是分析性结论，具体数值以原文 Fig. 4 为准）。
未覆盖更激进的篡改/生成方式：评测数据集的生成方法相对集中，面对持续演进的新一代生成模型，结论的时效性有待跟踪。

评分¶

新颖性: ⭐⭐⭐⭐ 不是新模型，但"统一极简设置横评 + 异常检测当捷径探测器 + 时空可解释性对齐"这套评测方法学是扎实且有启发性的贡献。
实验充分度: ⭐⭐⭐⭐⭐ 12 个编码器 × 4 个数据集 × 3 个维度（检测/可解释/互补），还对比了 5 个 SOTA 方法，覆盖面很全。
写作质量: ⭐⭐⭐⭐ 三个研究问题组织清晰，发现陈述明确；表格列编码（A–J）稍难读。
价值: ⭐⭐⭐⭐ 给"该用哪个 SSL 特征、为什么真实世界仍难"提供了可操作的结论，BRAVEn(V)+线性探针的强基线对社区很实用。