Learning Forgery-Aware Lip Representations Without Forgery Priors¶

会议: CVPR 2026
论文: CVF Open Access
代码: 原文未提供
领域: 伪造检测 / 唇语认证 / 单类表示学习
关键词: 视觉说话人认证、TFG 伪造、无伪造先验、非对称对比学习、高斯分布匹配

一句话总结¶

针对说话人认证系统被个性化"说话人脸生成"(TFG)伪造攻破的问题，本文提出一个只用真实视频训练、完全不依赖任何伪造样本的检测器：靠真帧混合伪造 + 非对称对比 + 高斯正则把真实唇动特征压成一个紧致球面，把球外一切（伪造和冒名者）当离群点，在 8 种现代伪造、10 个 SOTA 对比下把错误率压低 10% 以上。

研究背景与动机¶

领域现状：视觉说话人认证（Visual Speaker Authentication, VSA）用嘴唇动态而非全脸来验证身份——既保留了身份区分度，又比全脸少暴露隐私。现代 VSA 在内容识别之后接一个"冒名检测器"，本质是一个在已知真/假视频上做监督训练的分类器，干净场景下准确率常报到 99% 以上。

现有痛点：生成模型进步太快。个性化 TFG（如 ER-NeRF、MimicTalk、PersonaTalk）能从一段短参考视频甚至单图，渲染出嘴型与语音精准同步的逼真说话人脸。这类伪造在特征空间里和目标用户的真样本纠缠在一起，比人类冒名者或通用伪造离真身份更近，靠"已知伪造先验"根本切不开。监督分类器因此有两个硬伤：① 过拟合到已知冒名者，对任意贴近真样本的未知伪造束手无策；② 一旦缺乏有效伪造先验，决策边界会系统性地偏向极少数已知冒名者，面对快速演化的个性化 TFG 直接崩盘。

核心矛盾：检测器的能力被绑死在"伪造先验是否丰富且有代表性"上，而伪造分布是开放、无界、不断演化的——用有限、有偏的假样本去界定一个无限的离群空间，注定泛化不动。

本文目标：放弃伪造先验这条路，转而精确建模真样本的紧致边界，把任何落在边界外、带有异常特征统计的样本（无论是未见伪造还是人类冒名者）都判为离群。

切入角度：一个关键观察——同一用户的真样本方差极小；而伪造再像，也因生成痕迹保留着细微偏离。于是只要把真特征压成一个足够紧、结构良好的分布，"球外即假"就成立。

核心 idea：彻底丢掉会引入系统性偏置的伪造先验，用"真帧混合造伪 + 非对称对比 + 高斯正则"协同雕刻一个紧致的真样本特征空间，再用密度型异常检测器把离群样本剔除。

方法详解¶

整体框架¶

方法是一个三段协同的表示学习管线，只在原有 VSA 视觉编码器后接一个轻量 adapter（两层全连接）做训练，编码器本体冻结，因此新用户注册时适配代价极小。第一段不靠任何深度生成器，直接对真实唇帧做混合，造出两类"伪伪造"样本来撑开训练空间；第二段用非对称监督对比损失把真样本（inlier）抱团、把伪伪造推开，但不约束伪造与伪造之间的关系；第三段再加一个高斯分布匹配正则，把真特征整形成各向同性高斯，便于后续做密度建模。训练目标是 \(L = L_{asym} + \gamma L_{gdm}\)。推理时换上密度型异常检测器（如 LOF）建模真样本分布，球外样本一律拒绝。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实唇视频<br/>(仅 inlier)"] --> B["混合造伪 Mixedfake Lip<br/>SML 高频伪迹 + CML 低频伪迹"]
    B --> C["冻结视觉编码器 + 轻量 adapter<br/>(两层 FC)"]
    C --> D["非对称监督对比<br/>抱团真样本·推开伪伪造·伪-伪零梯度"]
    D --> E["高斯分布匹配 GDM<br/>真特征整形为各向同性高斯"]
    E -->|推理时| F["密度型异常检测器 LOF<br/>球外即伪造/冒名者"]

关键设计¶

1. 混合造伪：不用生成器，靠真帧混合模拟伪造痕迹

痛点很直接：真实世界能拿到的离群样本只有"其他用户"，变化有限、对检测帮助小；而真去训各种 TFG 生成器既不现实也跟不上演化。本文借鉴单类分类里"虚拟离群点"的思路，只对真实唇帧做混合造出 mixedfake lip，针对性模拟伪造视频里典型的高频/低频伪迹。混合公式为 \(I^{mix}_t(i,j) = \alpha_t(i,j)\, I^{A}_t(i,j) + (1-\alpha_t(i,j))\, I^{S}_t(i,j)\)，其中 \(I^S\) 是原始真帧、\(I^A\) 是增强或另一来源帧、\(\alpha\in[0,1]\) 控制注入痕迹的强度。两种类型分工互补：Self-Mixed Lip (SML) 对单条真视频每帧施加时间上一致参数、至少三种链式强增强（旋转/错切/色调分离等）再合成，模拟局部生成失败导致的高频伪迹——纹理跨帧不一致、唇缘扭曲、抖动、光照突变；Cross-Mixed Lip (CML) 则随机取两个不同 inlier 样本融合，模拟全局不一致带来的低频伪迹——过度平滑的过渡、迟滞或弱化的唇动。这一步把"造伪"从依赖深度生成器降级成廉价的帧级混合，却覆盖了 TFG 伪迹的主要谱段。

2. 非对称监督对比：只约束真样本，不强加伪造的结构

由于伪造不遵循固定生成模式，会在隐空间里围绕真样本不规则散布，常规监督对比（SupCon）会强行给负样本也安排一个"结构化布局"，而这个假设在伪造侧根本不成立，反而损害判别、引发过拟合。本文把目标改成只盯 inlier：拉近真-真、推开真-伪，但把伪造-伪造样本对从损失里剔除（贡献零梯度），从而不强迫五花八门的伪造彼此一致。损失定义为 \(L_{asym} = -\sum_{i:y_i=1}\frac{1}{|\mathcal{I}_i|}\sum_{j\in\mathcal{I}_i}\log\frac{\exp(z_i^\top z_j/\tau)}{\sum_{k\in\mathcal{B}\setminus\{i\}}\exp(z_i^\top z_k/\tau)}\)，其中 \(z_i\) 是 \(\ell_2\) 归一化特征、\(\mathcal{I}_i\) 是除锚点外的全部 inlier、\(\mathcal{B}\) 是整个 batch。这个非对称损失作用在前述 adapter（类比大模型里的 adapter tuning）上，且训练后保留 adapter，因为它的输出就是最终隐空间——这点和 SupCon 用完就丢投影头不同。

3. 高斯分布匹配 (GDM)：把真特征整形成可解析的各向同性高斯

光靠对比损失，真样本虽更紧致，但分布仍缺乏显式结构约束，密度建模不稳。本文额外引入标准高斯作为 inlier 的目标原型，给它一个单峰、紧致、解析可处理的结构。做法是借 InfoMax 思路最大化表示 \(f(X)\) 与其加噪版 \(f(X)+Z\) 的互信息：由于 \(I(f(X); f(X)+Z) = h(f(X)+Z) - h(Z)\) 且 \(h(Z)\) 固定，最大化互信息等价于抬高 \(f(X)+Z\) 的熵；又因最大熵定理下高斯在给定协方差时熵最大，该目标隐式把表示推向高斯（Proposition 1 给出 \(I \le \frac{d}{2}\log(1+\frac{1}{\sigma^2})\) 的上界，等号在 \(f(X)\sim\mathcal{N}(0,I)\) 时成立）。直接估互信息在高维不可行，于是用 Donsker–Varadhan 变分表示落成 InfoNCE 形式的 GDM 损失 \(L_{gdm} = -\frac{1}{N}\sum_i\log\frac{\exp(\langle z_i/\tilde{z}_i\rangle\tau)}{\sum_j\exp(\langle z_i/\tilde{z}_j\rangle\tau)}\)，其中 \(\tilde{z}_i = z_i + \epsilon_i,\ \epsilon_i\sim\mathcal{N}(0,\sigma^2 I)\)。当上界逼近理论最大值时，特征分布被正则到标准高斯，下游密度型检测器的泛化随之提升。⚠️ 公式 5 中 \(\langle z_i/\tilde{z}_j\rangle\) 的具体内积/温度写法以原文为准。

损失函数 / 训练策略¶

总目标 \(L = L_{asym} + \gamma L_{gdm}\)，\(\gamma\) 为权衡系数（默认 1）。优化器 Adam，学习率统一 0.0001，训练损失连续 10 个 epoch 不降则停；每个训练集随机取 500 个 clip 训练。仅更新 adapter，编码器用预训练的 AV-HuBERT。推理用密度型异常检测器（LOF/IF/OC-SVM/EE 均可），每个身份的阈值在训练集上按 1% 漏检率（FNR）标定。

实验关键数据¶

评测两个核心指标：AUC（ROC 曲线下面积，越高越好，衡量整体可分性）与 HTER（Half Total Error Rate，半总错误率 = 错误接受率与错误拒绝率的均值，越低越好，弥补 AUC 不反映实际阈值选择难度的短板）。基准为自建 TFG-Suite：8 种伪造方法（个性化 PersonaTalk / ER-NeRF / MimicTalk，零样本 TalkLip / Wav2Lip / IP-LAP / FOMM，外加换脸 SimSwap），覆盖 TFG-GRID、TFG-Lombard，及真实场景数据集 AVLips。'HM' 指人类冒名攻击，是 VSA 的基础开集条件。

主实验¶

数据集	方法	平均 AUC↑	平均 HTER↓
TFG-GRID	OpenSet（最强 baseline）	95.26	11.20
TFG-GRID	DO2HSC	95.21	8.51
TFG-GRID	本文	99.83	2.13
TFG-Lombard	OpenSet（最强 baseline）	95.76	11.19
TFG-Lombard	本文	99.91	1.86

在 TFG-GRID 上，本文对最难的个性化伪造 PersonaTalk（AUC 99.92）、ER-NeRF（99.95）、MimicTalk（99.99）几乎全歼，而 VSA 专用基线如 SA-DTH 在 PersonaTalk 上仅 59.38、TD-VSA 仅 46.78——印证了"靠低层线索的检测器在个性化 TFG 前会崩"。

真实场景 AVLips 上更能区分方法的鲁棒性（只列本文三种变体与最强基线）：

配置	HM AUC↑/HTER↓	fake AUC↑/HTER↓	平均 AUC↑/HTER↓
OpenSet（最强基线）	98.90 / 13.98	88.35 / 43.54	93.62 / 28.76
本文 V（仅视觉、仅真样本训练）	95.24 / 11.11	98.71 / 6.61	96.97 / 8.86
本文 V + HM（注入部分他人样本作离群）	99.35 / 5.00	99.33 / 6.68	99.34 / 5.84
本文 AV（拼接视听特征）	99.80 / 1.97	99.88 / 2.07	99.84 / 2.02

默认 V 变体完全不用人类冒名数据；V+HM 注入固定比例他人样本作离群、显著提升抗 HM 攻击；AV 变体把同维视听特征拼接做优化对象，表现最佳，说明方法对模态扩展友好。

消融实验¶

消融维度	配置	PersonaTalk AUC↑	ER-NeRF	MimicTalk	说明
造伪方式	w/ 旋转伪离群	78.27	88.31	99.70	旋转 baseline 有效但远逊
造伪方式	w/ 本文 SML+CML	99.92	99.95	99.99	混合造伪显著占优
对比目标	交叉熵	73.09	62.83	86.54	监督分类开集崩
对比目标	SimCLR	59.48	85.83	98.77	缺真样本分布约束
对比目标	SupCon	65.90	75.20	97.03	给负样本强加结构不成立
对比目标	SupCon+SimCLR	59.10	84.78	98.99	仍不如非对称
对比目标	本文非对称	99.92	99.95	99.99	只约束 inlier 最优

关键发现¶

三个组件缺一不可，且彼此互补：混合造伪负责"撑开训练空间"，非对称对比负责"只抱真样本"，GDM 负责"把真特征整形成可建模的高斯"。GDM 在 AVLips 上对 LOF/IF/OC-SVM/EE 四种异常检测器都一致降低错误率，说明它带来的是"普适的可建模性"而非对某个检测器调优。
最难的是个性化 TFG：所有基线在 PersonaTalk/ER-NeRF 上掉点最猛（多数 AUC 跌到 60~80），而本文几乎不掉，正面验证了"无伪造先验、纯真样本建模"的泛化优势。
SupCon 反而不如非对称：因为它默认给负样本（伪造）也安排结构化布局，与伪造的不规则分布不符，错配反而引发过拟合——这是"少强加假设"带来收益的直接证据。

亮点与洞察¶

范式反转：把"学伪造"改成"学真实、球外即假"。当伪造空间无限且演化时，建模有限的真样本边界比追逐无限的伪造更稳——这套思路可迁移到任何开集/单类安全检测（活体、反欺诈、异常入侵）。
零生成器造伪：用真帧的 SML/CML 混合就能模拟高/低频伪迹，绕开了"必须先有强生成器才能训检测器"的死循环，部署和维护成本骤降。
只训 adapter：冻结编码器、只更新两层 FC，新用户注册近乎零成本，工程落地友好；这与大模型 adapter tuning 同构，迁移成本低。
理论接地的高斯正则：通过 InfoMax→最大熵→高斯的链条，把"特征该长成什么样"从经验调参变成有上界保证的目标，是把异常检测和表示学习缝合的漂亮一手。

局限与展望¶

依赖混合造伪能覆盖真实伪迹谱：SML/CML 模拟的是高/低频伪迹，若未来出现既不属高频也不属低频的新型伪迹（如语义级时序不一致），混合造伪可能撑不开对应方向，需要重新设计混合算子。
仅视觉默认配置抗 HM 略弱：默认 V 变体不用任何他人样本，对人类冒名（HM）的 HTER（11.11）明显高于伪造检测，需靠 V+HM 注入他人样本补偿——说明"纯真样本"对"另一个真人"这种离群仍偏保守。
阈值按身份标定：每个身份阈值在训练集上按 1% FNR 标定，对训练样本数量与分布敏感；样本极少的新用户其边界估计可能不稳，原文把训练效率/耗时对比放在附录，正文难判其在极小样本下的鲁棒性。⚠️ 部分超参（如增强链长度、\(\gamma\) 敏感性）原文正文未充分展开。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "无伪造先验、纯真样本建模 + 零生成器造伪"是对伪造检测范式的实质反转。
实验充分度: ⭐⭐⭐⭐ 8 种伪造 × 10 个 SOTA × 3 数据集 + 三组消融到位，但极小样本/新型伪迹的鲁棒性未充分压测。
写作质量: ⭐⭐⭐⭐ 动机—方法—理论链条清晰，GDM 有命题支撑；个别公式符号（式 5）需对照原文。
价值: ⭐⭐⭐⭐⭐ 直击 VSA 被个性化 TFG 攻破的现实痛点，范式可迁移到广义开集安全检测。