Realistic Face Reconstruction from Facial Embeddings via Diffusion Models¶
会议: AAAI 2026
arXiv: 2602.13168
代码: 无
领域: 图像生成
关键词: 人脸重建, 人脸嵌入, 隐私攻击, Kolmogorov-Arnold Network, 扩散模型
一句话总结¶
提出 FEM(Face Embedding Mapping)框架,利用 KAN 网络将任意人脸识别/隐私保护人脸识别系统的嵌入向量映射到预训练身份保持(ID-Preserving)扩散模型的嵌入空间,实现高分辨率真实人脸重建,可用于评估人脸识别系统的隐私泄露风险。
研究背景与动机¶
领域现状¶
人脸识别(FR)系统通过黑盒模型(CNN/DNN)生成人脸嵌入向量作为身份模板。为增强隐私保护,隐私保护人脸识别(PPFR)系统被提出(如 DCTDP、HFCF、PartialFace、MinusFace),此外还有嵌入保护算法(如 PolyProtect、MLP-Hash、SlerpFace)。
现有痛点¶
CNN 方法重建质量差:NbNet、端到端 CNN 方法重建的人脸图像模糊、带噪声伪影,且通常只能生成低分辨率图像
GAN 方法局限性大:FaceTI 基于 StyleGAN3,训练过程资源密集(51 小时/epoch,25GB 显存);MAP2V 无需训练但推理极慢(111 秒/张)
针对 PPFR 的研究不足:现有方法主要关注正常 FR 系统,对隐私保护系统的嵌入攻击研究有限
缺乏通用性:现有方法难以处理部分泄露嵌入、受保护嵌入等真实攻击场景
核心矛盾¶
如何用轻量级的映射网络将不同 FR/PPFR 系统的嵌入空间(各不相同)统一映射到一个高质量人脸生成模型的嵌入空间,实现高效、高质量的人脸重建?
切入角度¶
利用预训练的 ID-Preserving 扩散模型 IPA-FaceID(已具备从嵌入生成高质量人脸的能力),核心问题转化为嵌入空间之间的映射学习。引入 KAN(Kolmogorov-Arnold Network)来捕捉嵌入空间间的复杂非线性关系。
方法详解¶
整体框架¶
FEM 框架分为训练和推理两个阶段:
训练阶段: 1. 将公开人脸数据集分别送入目标 FR/PPFR 模型 \(\Gamma'(\cdot)\) 和 IPA-FaceID 的默认 FR 模型 \(\Gamma(\cdot)\) 2. 获取两个嵌入分布 \(\mathcal{D}'(e'_i)\) 和 \(\mathcal{D}(e_i)\) 3. 训练 FEM 模型 \(\mathcal{M}(\cdot)\) 使映射后的嵌入 \(\hat{e}_i = \mathcal{M}(e'_i)\) 尽可能接近对应的 \(e_i\)
推理阶段: 1. 将泄露的目标系统嵌入 \(e'\) 输入训练好的 FEM 2. FEM 映射得到 \(\hat{e}\) 3. 直接用 IPA-FaceID 生成高分辨率真实人脸图像
关键设计¶
1. FEM-KAN:基于 KAN 的嵌入映射¶
核心思路:利用 Kolmogorov-Arnold 定理——任何连续函数都可以表示为有限个单变量连续函数的组合。人脸嵌入间的映射关系本质上可以被分解为单变量函数操作的组合。
与 FEM-MLP 的区别: - FEM-MLP 使用固定激活函数(GELU),3 层 MLP + 1D 批归一化 - FEM-KAN 使用可学习的激活函数位于边上,3 层 KAN,能更准确地捕捉非线性映射
设计动机:人脸嵌入虽然高维但具有结构性,KAN 的单变量函数分解能更好地捕捉嵌入空间间的复杂非线性关系。UMAP 可视化表明 FEM 能有效将目标域嵌入映射到 IPA-FR 的目标域或边界区域。
2. 损失函数设计¶
使用均方误差(MSE)作为重建损失:
其中 \(e_i\) 是目标嵌入(IPA-FR 输出),\(\hat{e}_i = \mathcal{M}(e'_i)\) 是 FEM 映射后的嵌入。
3. 利用 IPA-FaceID 的 ID 保持能力¶
IPA-FaceID 使用解耦交叉注意力将人脸嵌入注入预训练 T2I 扩散模型。固定文本提示为 "front portrait of a person" 以生成正面肖像。FEM 将映射后的嵌入落入目标域后,IPA-FaceID 可直接生成保持身份的人脸图像。
训练策略¶
- 使用 90% FFHQ 数据集训练,测试在 CelebA-HQ 的 1000 张从未见过的身份
- AdamW 优化器,初始学习率 \(10^{-2}\),指数衰减率 0.8
- Batch size 128,训练 20 个 epoch
- 在 Tesla V100 32GB GPU 上训练
实验关键数据¶
主实验¶
CelebA-HQ 数据集上的攻击成功率(ASR):
| 目标模型 | 方法 | MF | EF | GF | AF | 平均 |
|---|---|---|---|---|---|---|
| IRSE50 (FR) | FaceTI | 93.4 | 80.8 | 49.6 | 66.8 | 72.7 |
| MAP2V | 94.0 | 86.2 | 59.3 | 72.0 | 77.9 | |
| FEM-MLP | 98.0 | 91.8 | 62.6 | 73.4 | 81.5 | |
| FEM-KAN | 99.2 | 93.8 | 65.7 | 76.1 | 83.7 | |
| HFCF (PPFR) | MAP2V | 76.3 | 15.4 | 5.3 | 14.8 | 28.0 |
| FEM-KAN | 98.3 | 90.7 | 66.5 | 76.9 | 83.1 | |
| MinusFace (PPFR) | MAP2V | 68.0 | 4.8 | 2.3 | 5.6 | 20.2 |
| FEM-KAN | 96.5 | 71.3 | 44.5 | 58.1 | 67.6 |
FEM-KAN 在所有 FR 和 PPFR 目标模型上均取得最高平均 ASR,特别是在 HFCF 和 MinusFace 等 PPFR 模型上远超 MAP2V(83.1 vs 28.0,67.6 vs 20.2)。
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| FEM 训练时间 | 3 小时 vs FaceTI 51 小时 | 17 倍更快 |
| FEM GPU 内存 | 4325 MiB vs FaceTI 25383 MiB | 5.8 倍更省 |
| FEM 推理时间 | 2.6s vs MAP2V 111s | 42 倍更快 |
| 50% 嵌入泄露 | FEM-KAN ASR 53.2% vs FaceTI 50.8% | FEM 更鲁棒 |
| 30% 嵌入泄露 | FEM-KAN ASR 32.5% | 极低泄露仍可攻击 |
| 化妆场景 (LADN-M) | FEM-KAN 平均 ASR 85.1% vs FaceTI 56.4% | FEM 对化妆更鲁棒 |
受保护嵌入攻击¶
| 保护算法 | FEM-KAN MF/EF/GF/AF | MAP2V MF/EF/GF/AF |
|---|---|---|
| MLP-Hash | 82.1/54.7/56.5/71.6 | 48.1/0.6/0.3/1.5 |
| SlerpFace | 79.4/9.3/7.8/15.4 | 11.4/0.0/0.1/0.1 |
| PolyProtect | 50.3/7.1/5.6/15.4 | 28.6/4.4/3.6/4.3 |
FEM 在 MLP-Hash 保护下的 ASR 接近无保护水平,说明该嵌入保护算法存在严重安全隐患。
关键发现¶
- KAN 优于 MLP:FEM-KAN 在几乎所有场景下均优于 FEM-MLP,证明了可学习激活函数在嵌入映射中的优势
- PPFR 系统并不安全:即使图像经过频域变换等隐私保护处理,嵌入中仍保留了足够的身份信息可被用于高质量人脸重建
- 部分嵌入也能攻击:即使只获得 30% 的嵌入向量,FEM-KAN 仍能实现 32.5% 的 ASR
- 化妆对 FEM 影响小:化妆导致 FaceTI ASR 下降 18.1%,但 FEM-KAN 仅下降 6.4%
- 人脸反欺骗系统可被绕过:重建的高质量人脸可通过 FASNet 检测
亮点与洞察¶
- KAN 在嵌入映射中的首次应用:证明了 KAN 的可学习激活函数对于高维结构化数据(人脸嵌入)的非线性映射确实优于传统 MLP
- 框架思维:将人脸重建问题巧妙转化为"嵌入空间映射 + 预训练生成"的两阶段方案,使得映射网络可以极其轻量
- 全面的安全评估:覆盖了正常 FR、PPFR、部分泄露、受保护嵌入、受保护图像等多种场景,具有实际安全评估价值
- 训练效率极高:3 层网络、3 小时训练、2.6 秒推理,远优于现有方法
局限与展望¶
- 依赖 IPA-FaceID 作为生成后端,如果该模型更新或下架则失效
- 文本提示固定为 "front portrait of a person",对非正面角度的人脸重建可能不够准确
- FEM 需要访问目标 FR 系统的黑盒查询能力来构建训练数据
- 低分辨率人脸(LFW 112×112)的 ASR 明显下降
- 当嵌入泄露率低于 30% 时,重建人脸出现明显伪影
- 仅使用了 MSE 损失,未探索其他距离度量(如余弦距离、对比损失)
相关工作与启发¶
- FEM 可作为 FR/PPFR 系统隐私安全的评估工具,量化不同保护算法的隐私泄露风险
- 启发安全研究:嵌入保护算法(特别是 MLP-Hash)需要重新设计以抵抗映射攻击
- KAN 在其他嵌入空间对齐任务(如跨模态检索、领域适应)中可能也有应用潜力
- 提示了"嵌入即隐私"的安全范式:即使图像被保护,嵌入向量仍可能泄露身份
评分¶
- 新颖性: ⭐⭐⭐⭐ (KAN 用于嵌入映射有新意,框架设计优雅简洁)
- 实验充分度: ⭐⭐⭐⭐⭐ (覆盖多种 FR/PPFR 系统、多种攻击场景、资源对比)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,实验设置详细)
- 价值: ⭐⭐⭐⭐ (对隐私安全研究有实际意义,暴露了 PPFR 的安全风险)