MoFRR: Mixture of Diffusion Models for Face Retouching Restoration¶

会议: ICCV 2025
arXiv: 2507.19770
代码: 暂无
领域: 图像生成 / 人脸修复
关键词: 人脸修图还原, 混合专家, 小波变换, 扩散模型, 频域分解

一句话总结¶

本文首次提出人脸修图还原(FRR)任务，并设计 MoFRR 框架——借鉴 DeepSeek MoE 思想，通过路由器激活特定修图类型的专家（小波 DDIM）和共享专家（通用 DDIM），在新构建的百万级 RetouchingFFHQ++ 数据集上实现了修图人脸的近真实还原。

研究背景与动机¶

社会问题：人脸修图（瘦脸、大眼、美白、磨皮）在社交平台泛滥，引发审美退化、商业欺诈和身份造假等问题。挪威、美国、以色列已立法要求标注修图内容。

研究空白：现有工作聚焦于修图检测，但如何从修图后的图像还原真实面孔尚未被回答。这对追溯严重修图面孔的真实身份至关重要。

FRR 不同于常规任务： - 不同于图像修复（IR）：IR 关注高频纹理恢复，FRR 需恢复低频结构信息（脸型、眼睛大小） - 不同于卸妆：修图涉及面部结构变化（瘦脸、大眼），卸妆仅涉及纹理/颜色变化 - 不同类型的修图操作逻辑独立、目标不同，不宜单模型处理

方法详解¶

整体框架 (MoE)¶

受 DeepSeek MoE 启发的分而治之策略：

路由器：ResNet-MAM 多标签分类器，输出 4 维二值向量 $[b_w, b_s, b_f, b_e]$，分别对应美白、磨皮、瘦脸、大眼
专家网络：4 个专用专家(WaveFRR) + 1 个共享专家（标准 DDIM）
合并模块：轻量级 UNet，融合所有激活专家的中间结果和原始图像

关键设计：WaveFRR 专家模型¶

每个 WaveFRR 包含双分支结构：

低频分支（DDIM + IDEM）： - 对输入图像做离散小波变换 (DWT)，得到低频子带 $x_{LL}$ 和高频子带 $x_H$ - 度估计器：ResNet50 预测特定修图操作的程度 $z$ - IDEM 模块：通过多尺度通道注意力网络生成像素级条件：

\[F = \text{MCA}(z+x_{LL}) \otimes x_{LL} + (1-\text{MCA}(z+x_{LL})) \otimes z$$ $$\hat{R} = \text{MCA}(F+\hat{y}_t) \otimes \hat{y}_t + (1-\text{MCA}(F+\hat{y}_t)) \otimes F$$ $$\tilde{x} = \text{Concat}(x_{LL}, \hat{R})\]

条件 DDIM 在此指导下采样无修图低频子带

高频分支（HFCAM）： $$\hat{y}_H = x_H + \text{Conv}(\text{CA}(\hat{y}_0, x_H))$$

将恢复的低频子带 $\hat{y}_0$ 与原始高频子带 $x_H$ 通过交叉注意力对齐，修正高频细节。最终通过逆小波变换重建：$\hat{Y}_M = \text{IDWT}(\hat{y}_0, \hat{y}_H)$。

损失函数¶

\[\mathcal{L} = \mathcal{L}_{freq} + \mathcal{L}_{space} + \mathcal{L}_{class}\]

$\mathcal{L}_{freq} = \mathcal{L}_{IDEM} + \mathcal{L}_{simple} + \mathcal{L}_{high}$：频域损失（IDEM 残差 L2 + 扩散损失 + 高频 L2+TV）
$\mathcal{L}_{space} = \mathcal{L}_{hyb}(Y,\hat{Y}) + \sum_M\mathcal{L}_{hyb}(Y,\hat{Y}_M)$：空间损失（L1 + 1-SSIM）
$\mathcal{L}_{class}$：路由器和度估计器的交叉熵损失

共享专家设计¶

采用标准 DDIM 架构（无小波分解），与 WaveFRR 架构差异促进功能互补
在混合修图数据子集上训练，捕获跨修图类型的通用模式
持续激活（不经过路由器门控）

实验¶

内 API 测试（混合修图）¶

方法	PSNR↑ (美白)	PSNR↑ (磨皮)	PSNR↑ (瘦脸)	PSNR↑ (大眼)	PSNR↑ (混合)
Input	29.14	35.59	29.55	35.82	28.03
Pix2pix	27.72	28.55	27.34	28.41	28.73
Restormer	29.89	-	-	-	-
MoFRR	最优	最优	最优	最优	最优

专家可视化分析¶

专家	功能
共享专家	全局修图痕迹处理
瘦脸专家	恢复原始脸型
大眼专家	恢复原始眼睛大小
磨皮专家	恢复皮肤纹理细节
美白专家	恢复原始肤色

关键发现¶

RetouchingFFHQ++ 包含 107 万修图图像（4 个商业 API），规模远超前作
独立专家的可视化显示各专家确实学到了针对性的修图逆操作
面部特征相似度 cosine 分布表明还原结果显著接近原始身份
跨 API 测试验证了模型的泛化能力

亮点与洞察¶

首创 FRR 任务：从修图检测延伸到修图还原，应用场景广泛（司法鉴定、身份验证）
MoE + 扩散模型结合：受 DeepSeek 启发的共享+专用专家架构
小波域分治：低频恢复结构、高频修正细节，针对 FRR 特点设计
百万级数据集扩展了 RetouchingFFHQ，重新定义了修图程度标准

局限性¶

仅支持 4 种修图类型，实际商业美颜操作更丰富
路由器分类错误会级联影响后续修复效果
DDIM 推理需要多步采样，实时性有限

评分¶

新颖性：⭐⭐⭐⭐⭐ — 首个 FRR 任务定义 + MoE 扩散专家
技术深度：⭐⭐⭐⭐ — 小波 + DDIM + MoE 多层设计
实验充分度：⭐⭐⭐⭐ — 内 API + 跨 API 测试
实用价值：⭐⭐⭐⭐ — 反修图诈骗、司法取证