Realistic Face Reconstruction from Facial Embeddings via Diffusion Models¶

会议: AAAI 2026
arXiv: 2602.13168
代码: 无
领域: 图像生成
关键词: 人脸重建, 人脸嵌入, 隐私攻击, Kolmogorov-Arnold Network, 扩散模型

一句话总结¶

提出 FEM（Face Embedding Mapping）框架，利用 KAN 网络将任意人脸识别/隐私保护人脸识别系统的嵌入向量映射到预训练身份保持（ID-Preserving）扩散模型的嵌入空间，实现高分辨率真实人脸重建，可用于评估人脸识别系统的隐私泄露风险。

研究背景与动机¶

领域现状¶

人脸识别（FR）系统通过黑盒模型（CNN/DNN）生成人脸嵌入向量作为身份模板。为增强隐私保护，隐私保护人脸识别（PPFR）系统被提出（如 DCTDP、HFCF、PartialFace、MinusFace），此外还有嵌入保护算法（如 PolyProtect、MLP-Hash、SlerpFace）。

现有痛点¶

CNN 方法重建质量差：NbNet、端到端 CNN 方法重建的人脸图像模糊、带噪声伪影，且通常只能生成低分辨率图像

GAN 方法局限性大：FaceTI 基于 StyleGAN3，训练过程资源密集（51 小时/epoch，25GB 显存）；MAP2V 无需训练但推理极慢（111 秒/张）

针对 PPFR 的研究不足：现有方法主要关注正常 FR 系统，对隐私保护系统的嵌入攻击研究有限

缺乏通用性：现有方法难以处理部分泄露嵌入、受保护嵌入等真实攻击场景

核心矛盾¶

如何用轻量级的映射网络将不同 FR/PPFR 系统的嵌入空间（各不相同）统一映射到一个高质量人脸生成模型的嵌入空间，实现高效、高质量的人脸重建？

切入角度¶

利用预训练的 ID-Preserving 扩散模型 IPA-FaceID（已具备从嵌入生成高质量人脸的能力），核心问题转化为嵌入空间之间的映射学习。引入 KAN（Kolmogorov-Arnold Network）来捕捉嵌入空间间的复杂非线性关系。

方法详解¶

整体框架¶

FEM 框架分为训练和推理两个阶段：

训练阶段： 1. 将公开人脸数据集分别送入目标 FR/PPFR 模型 \(\Gamma'(\cdot)\) 和 IPA-FaceID 的默认 FR 模型 \(\Gamma(\cdot)\) 2. 获取两个嵌入分布 \(\mathcal{D}'(e'_i)\) 和 \(\mathcal{D}(e_i)\) 3. 训练 FEM 模型 \(\mathcal{M}(\cdot)\) 使映射后的嵌入 \(\hat{e}_i = \mathcal{M}(e'_i)\) 尽可能接近对应的 \(e_i\)

推理阶段： 1. 将泄露的目标系统嵌入 \(e'\) 输入训练好的 FEM 2. FEM 映射得到 \(\hat{e}\) 3. 直接用 IPA-FaceID 生成高分辨率真实人脸图像

关键设计¶

1. FEM-KAN：基于 KAN 的嵌入映射¶

核心思路：利用 Kolmogorov-Arnold 定理——任何连续函数都可以表示为有限个单变量连续函数的组合。人脸嵌入间的映射关系本质上可以被分解为单变量函数操作的组合。

\[f(x) = \sum_q \Phi_q\left(\sum_i \phi_{q,i}(x_i)\right)\]

与 FEM-MLP 的区别： - FEM-MLP 使用固定激活函数（GELU），3 层 MLP + 1D 批归一化 - FEM-KAN 使用可学习的激活函数位于边上，3 层 KAN，能更准确地捕捉非线性映射

设计动机：人脸嵌入虽然高维但具有结构性，KAN 的单变量函数分解能更好地捕捉嵌入空间间的复杂非线性关系。UMAP 可视化表明 FEM 能有效将目标域嵌入映射到 IPA-FR 的目标域或边界区域。

2. 损失函数设计¶

使用均方误差（MSE）作为重建损失：

\[\mathcal{L}_{MSE}(e_i, \hat{e}_i) = \frac{\sum_{i=0}^{N-1}(e_i - \hat{e}_i)^2}{N}\]

其中 \(e_i\) 是目标嵌入（IPA-FR 输出），\(\hat{e}_i = \mathcal{M}(e'_i)\) 是 FEM 映射后的嵌入。

3. 利用 IPA-FaceID 的 ID 保持能力¶

IPA-FaceID 使用解耦交叉注意力将人脸嵌入注入预训练 T2I 扩散模型。固定文本提示为 "front portrait of a person" 以生成正面肖像。FEM 将映射后的嵌入落入目标域后，IPA-FaceID 可直接生成保持身份的人脸图像。

训练策略¶

使用 90% FFHQ 数据集训练，测试在 CelebA-HQ 的 1000 张从未见过的身份
AdamW 优化器，初始学习率 \(10^{-2}\)，指数衰减率 0.8
Batch size 128，训练 20 个 epoch
在 Tesla V100 32GB GPU 上训练

实验关键数据¶

主实验¶

CelebA-HQ 数据集上的攻击成功率（ASR）：

目标模型	方法	MF	EF	GF	AF	平均
IRSE50 (FR)	FaceTI	93.4	80.8	49.6	66.8	72.7
	MAP2V	94.0	86.2	59.3	72.0	77.9
	FEM-MLP	98.0	91.8	62.6	73.4	81.5
	FEM-KAN	99.2	93.8	65.7	76.1	83.7
HFCF (PPFR)	MAP2V	76.3	15.4	5.3	14.8	28.0
	FEM-KAN	98.3	90.7	66.5	76.9	83.1
MinusFace (PPFR)	MAP2V	68.0	4.8	2.3	5.6	20.2
	FEM-KAN	96.5	71.3	44.5	58.1	67.6

FEM-KAN 在所有 FR 和 PPFR 目标模型上均取得最高平均 ASR，特别是在 HFCF 和 MinusFace 等 PPFR 模型上远超 MAP2V（83.1 vs 28.0，67.6 vs 20.2）。

消融实验¶

配置	关键指标	说明
FEM 训练时间	3 小时 vs FaceTI 51 小时	17 倍更快
FEM GPU 内存	4325 MiB vs FaceTI 25383 MiB	5.8 倍更省
FEM 推理时间	2.6s vs MAP2V 111s	42 倍更快
50% 嵌入泄露	FEM-KAN ASR 53.2% vs FaceTI 50.8%	FEM 更鲁棒
30% 嵌入泄露	FEM-KAN ASR 32.5%	极低泄露仍可攻击
化妆场景 (LADN-M)	FEM-KAN 平均 ASR 85.1% vs FaceTI 56.4%	FEM 对化妆更鲁棒

受保护嵌入攻击¶

保护算法	FEM-KAN MF/EF/GF/AF	MAP2V MF/EF/GF/AF
MLP-Hash	82.1/54.7/56.5/71.6	48.1/0.6/0.3/1.5
SlerpFace	79.4/9.3/7.8/15.4	11.4/0.0/0.1/0.1
PolyProtect	50.3/7.1/5.6/15.4	28.6/4.4/3.6/4.3

FEM 在 MLP-Hash 保护下的 ASR 接近无保护水平，说明该嵌入保护算法存在严重安全隐患。

关键发现¶

KAN 优于 MLP：FEM-KAN 在几乎所有场景下均优于 FEM-MLP，证明了可学习激活函数在嵌入映射中的优势
PPFR 系统并不安全：即使图像经过频域变换等隐私保护处理，嵌入中仍保留了足够的身份信息可被用于高质量人脸重建
部分嵌入也能攻击：即使只获得 30% 的嵌入向量，FEM-KAN 仍能实现 32.5% 的 ASR
化妆对 FEM 影响小：化妆导致 FaceTI ASR 下降 18.1%，但 FEM-KAN 仅下降 6.4%
人脸反欺骗系统可被绕过：重建的高质量人脸可通过 FASNet 检测

亮点与洞察¶

KAN 在嵌入映射中的首次应用：证明了 KAN 的可学习激活函数对于高维结构化数据（人脸嵌入）的非线性映射确实优于传统 MLP
框架思维：将人脸重建问题巧妙转化为"嵌入空间映射 + 预训练生成"的两阶段方案，使得映射网络可以极其轻量
全面的安全评估：覆盖了正常 FR、PPFR、部分泄露、受保护嵌入、受保护图像等多种场景，具有实际安全评估价值
训练效率极高：3 层网络、3 小时训练、2.6 秒推理，远优于现有方法

局限与展望¶

依赖 IPA-FaceID 作为生成后端，如果该模型更新或下架则失效
文本提示固定为 "front portrait of a person"，对非正面角度的人脸重建可能不够准确
FEM 需要访问目标 FR 系统的黑盒查询能力来构建训练数据
低分辨率人脸（LFW 112×112）的 ASR 明显下降
当嵌入泄露率低于 30% 时，重建人脸出现明显伪影
仅使用了 MSE 损失，未探索其他距离度量（如余弦距离、对比损失）

评分¶

新颖性: ⭐⭐⭐⭐ （KAN 用于嵌入映射有新意，框架设计优雅简洁）
实验充分度: ⭐⭐⭐⭐⭐ （覆盖多种 FR/PPFR 系统、多种攻击场景、资源对比）
写作质量: ⭐⭐⭐⭐ （结构清晰，实验设置详细）
价值: ⭐⭐⭐⭐ （对隐私安全研究有实际意义，暴露了 PPFR 的安全风险）