FreeUV: Ground-Truth-Free Realistic Facial UV Texture Recovery via Cross-Assembly¶
会议: CVPR 2025
arXiv: 2503.17197
代码: 无
领域: 扩散模型
关键词: 人脸UV纹理恢复, 无GT训练, 跨装配推理, Stable Diffusion, 3DMM
一句话总结¶
FreeUV 提出了一种不需要 ground-truth UV 纹理数据的面部 UV 纹理恢复框架,通过分别训练关注真实外观的 UV-to-2D 网络和关注结构一致性的 2D-to-UV 网络,在推理时将两者的 UV 相关模块跨装配(Cross-Assembly)到预训练 Stable Diffusion 中,实现高保真的 UV-to-UV 纹理生成。
研究背景与动机¶
领域现状:从单张 2D 人脸图像恢复高质量的 3D 面部 UV 纹理是计算机视觉和图形学的长期挑战。基于 3DMM 的重建方法可以获得粗糙的几何和纹理,但难以捕捉皱纹、毛孔、胡须、化妆等精细纹理细节。
现有痛点:现有的高质量 UV 纹理生成方法严重依赖 ground-truth UV 数据。一类方法依赖昂贵的专业设备采集的真实 UV 数据集,泛化性差;另一类方法用 StyleGAN 合成训练数据,但受限于 StyleGAN 的能力(domain gap、多步流程导致 identity/表情/光照不一致),难以处理多样化的真实人脸(如化妆遮挡等)。
核心矛盾:获取完整、真实的 UV 纹理 ground truth 本身既昂贵又近乎不可能做到高保真——这是所有监督方法的根本瓶颈。而从单视角 3DMM fitting 得到的 unwrapped UV 纹理存在严重缺陷(扭曲、缺失区域、对齐不精确),不能直接用作训练目标。
本文目标 如何在完全不需要完整 UV 纹理 ground truth 的情况下,从单张人脸图像恢复高保真、结构一致的完整 UV 纹理?
切入角度:作者观察到 in-the-wild 数据域提供了真实外观但 UV 结构不可靠,3DMM 数据域提供了可靠结构但外观不真实。两个域各有优劣——UV-to-2D 映射在 in-the-wild 域是可靠的(渲染过程),2D-to-UV 映射在 3DMM 域是一致的(数据对齐)。
核心 idea:分别在两个域训练互补的网络(in-the-wild 域学外观、3DMM 域学结构),推理时跨装配两者的 UV 相关模块实现 UV-to-UV 纹理生成。
方法详解¶
整体框架¶
FreeUV 基于预训练 Stable Diffusion v1.5,包含两个独立训练的网络:(1) 外观网络 \(\phi_a\):在 in-the-wild 域训练,输入有缺陷的 UV 纹理 \(\mathbf{T}_w\),输出 masked 2D 人脸图像 \(\mathbf{I}_w\)(UV-to-2D 映射),其中的 Flaw-Tolerant Detail Extractor \(\psi_a\) 学习从有缺陷的 UV 中提取真实面部细节;(2) 结构网络 \(\phi_s\):在 3DMM 域训练,输入 masked 3DMM 人脸图像 \(\mathbf{I}_m\),输出 masked 3DMM UV 纹理 \(\mathbf{T}_m\)(2D-to-UV 映射),其中的 UV Structure Aligner \(\psi_s\) 学习结构一致的 UV 布局映射。推理时,将 \(\psi_a\) 和 \(\psi_s\) 组合到 SD 模型中,直接完成 UV-to-UV 映射。
关键设计¶
-
Flaw-Tolerant Facial Detail Extractor (\(\psi_a\), 容错面部细节提取器):
- 功能:从有缺陷的 unwrapped UV 纹理中提取并保留精细面部特征(胡须、皱纹、化妆等),同时抑制扭曲和缺陷区域的影响
- 核心思路:使用 CLIP 图像编码器从多层提取特征后沿特征轴拼接(Stable-Makeup 方法),再加入通道注意力(channel attention)选择性强调相关信息。通道注意力擅长从 UV 纹理的"降采样"过程中识别关键特征。网络同时接收 masked UV 位置图 \(\mathbf{I}_{uv}\) 和 2D landmarks \(\mathbf{I}_{lm}\) 作为结构引导。
- 设计动机:3DMM fitting 无法实现像素级对齐,直接用有缺陷的 UV 训练会将伪影传播到输出。通道注意力能够选择性地关注可靠的特征通道而忽略受损区域,2D landmarks 补偿了 UV 位置图与 2D 图像的对齐偏差。
-
UV Structure Aligner (\(\psi_s\), UV 结构对齐器):
- 功能:引导生成的 UV 纹理精确符合 3DMM 的 UV 布局结构,确保结构一致性
- 核心思路:基于 ControlNet 架构,在 3DMM 域训练,输入像素级对齐的 masked 3DMM 图像 \(\mathbf{I}_m\) 和 masked UV 位置图 \(\mathbf{T}_{uv}\)(均由相同 3DMM 参数生成),完成 2D-to-UV 映射。特征提取器使用 CLIP 的空间感知自注意力(spatial-aware self-attention),因为 2D-to-UV 映射相当于"上采样"过程,需要在特征间插值。
- 设计动机:2D-to-UV 映射在 3DMM 域是像素级一致的,利用这种天然对齐训练 ControlNet 可以学到准确的结构映射。使用自注意力而非通道注意力是因为"上采样"需要捕捉特征间的空间关系进行准确插值。
-
Cross-Assembly Inference Strategy(跨装配推理策略):
- 功能:在推理时将两个独立训练的网络模块组合,从有缺陷的 UV 输入直接生成完整的高保真 UV 纹理
- 核心思路:将外观网络的 \(\psi_a\)(提供真实细节特征)和结构网络的 \(\psi_s\)(提供 UV 布局引导)共同接入 SD 模型。\(\psi_a\) 从 \(\mathbf{T}_w\) 提取外观特征,\(\psi_s\) 基于完整的 UV 位置图 \(\mathbf{\Upsilon}_{uv}\) 提供结构引导,生成完整 UV 纹理 \(\mathbf{\Upsilon}_w\)。最后用 Lab 色彩空间的均值-方差匹配做颜色校正。
- 设计动机:两个网络训练时的输入-输出映射是对称且互补的(UV→2D 和 2D→UV),但都不直接做 UV→UV。跨装配利用了各自在不同域学到的专长,避免了任何一个网络独立生成时的结构失败或细节丢失问题。
损失函数 / 训练策略¶
两个网络均使用标准的扩散模型去噪损失:外观网络 \(\mathcal{L}_a(\theta) = \mathbb{E}[\|\epsilon - \epsilon_\theta(\mathbf{x}_t, t, \mathbf{c}_T^w, \mathbf{c}_I^{uv}, \mathbf{c}_I^{lm})\|_2^2]\);结构网络 \(\mathcal{L}_s(\theta) = \mathbb{E}[\|\epsilon - \epsilon_\theta(\mathbf{x}_t, t, \mathbf{c}_I^m, \mathbf{c}_T^{uv})\|_2^2]\)。训练在单块 A100 上进行 80,000 迭代,batch size 4,学习率 \(3 \times 10^{-5}\)。推理用 DDIM 30 步,guidance scale 1.4。
实验关键数据¶
主实验¶
| 数据集 | 指标 | FreeUV | HRN | UV-IDM | FLAME-based |
|---|---|---|---|---|---|
| FFHQ | CLIP-I↑ | 0.8490 | 0.8327 | 0.7986 | 0.8218 |
| FFHQ | DINO-I↑ | 0.7559 | 0.7389 | 0.5836 | 0.7269 |
| FFHQ | FID↓ | 142.39 | 166.19 | 228.74 | 158.06 |
| CelebAMask-HQ | CLIP-I↑ | 0.8272 | 0.8259 | 0.7458 | 0.8016 |
| CelebAMask-HQ | DINO-I↑ | 0.7948 | 0.7382 | 0.5690 | 0.7640 |
| LPFF (大角度) | CLIP-I↑ | 0.7997 | 0.7368 | 0.7440 | 0.7822 |
| LPFF (大角度) | DINO-I↑ | 0.6835 | 0.5951 | 0.5345 | 0.6724 |
消融实验¶
| 配置 | RMSE↓ | SSIM↑ | LPIPS↓ | PSNR↑ |
|---|---|---|---|---|
| \(\phi_a^{ch} + \phi_s^{self}\) (Ours) | 0.0276 | 0.8001 | 0.0463 | 30.848 |
| \(\phi_a^{self} + \phi_s^{self}\) | 0.0302 | 0.7881 | 0.0474 | 30.397 |
| \(\phi_a^{self} + \phi_s^{ch}\) | 0.0367 | 0.7876 | 0.0539 | 28.693 |
| \(\phi_a^{ch} + \phi_s^{ch}\) | 0.0379 | 0.7648 | 0.0639 | 28.417 |
| w/o landmarks | 0.0292 | 0.7928 | 0.0481 | 30.624 |
| w/o color adjustment | 0.0282 | 0.7992 | 0.0531 | 30.828 |
关键发现¶
- 注意力类型的选择至关重要:外观网络用通道注意力、结构网络用自注意力的组合最优。反过来用(\(\phi_a^{self} + \phi_s^{ch}\))PSNR 下降超过 2dB
- UV-to-2D 是"降采样"过程适合通道注意力(选择关键特征),2D-to-UV 是"上采样"过程适合自注意力(插值特征关系)
- 2D landmarks 的加入有效补偿了 3DMM fitting 的对齐误差,去掉后 RMSE 从 0.0276 升高到 0.0292
- FreeUV 在大角度和遮挡场景下表现尤其稳健,得益于 Flaw-Tolerant 设计
亮点与洞察¶
- Cross-Assembly 推理策略是核心创新——两个网络分别在不同域学习互补的映射,推理时组合到一起。这种"分而学之、合而用之"的思路可推广到任何存在域差异但各域有互补优势的生成任务
- 无需 GT UV 数据大幅降低了数据获取门槛,仅用 FFHQ 的 33K 张图像即可训练,比需要扫描设备或 StyleGAN 合成的方法更具可扩展性
- 对注意力机制在"上采样 vs 下采样"映射中作用的分析很有洞察——通道注意力负责选择,自注意力负责插值
局限与展望¶
- 对非常精细的面部元素(饰品、斑点、瑕疵)可能出现位置偏移或数量变化
- 遮挡区域(如帽子下方)的恢复可能会不自然地延伸周围纹理
- 依赖 3DMM fitting 质量,如果 fitting 失败(如人脸分割错误),输出质量会明显下降
- 推理速度受限于 SD 30 步采样(4.75 秒/张),可考虑蒸馏加速
- 仅处理皮肤区域,未扩展到眼睛、嘴巴等完整面部
相关工作与启发¶
- vs FFHQ-UV: FFHQ-UV 需要资源密集的迭代优化来创建 UV ground truth,FreeUV 完全消除了这一依赖
- vs UV-IDM: UV-IDM 先用 StyleGAN 生成多视角图再合成 UV 对,受限于 StyleGAN 能力且多步流程易产生不一致,FreeUV 直接从单图端到端恢复
- vs DSD-GAN: 同样无需 GT UV,但 DSD-GAN 使用 GAN 存在结构对齐伪影,FreeUV 基于扩散模型更稳健
评分¶
- 新颖性: ⭐⭐⭐⭐ Cross-Assembly 跨域互补思路巧妙,从"降采样/上采样"角度理解注意力机制有新颖洞察
- 实验充分度: ⭐⭐⭐⭐ 跨三个数据集与多种方法对比,消融研究全面
- 写作质量: ⭐⭐⭐⭐ 表格总结(Tab.1)清晰展示跨域选择逻辑,动机阐述透彻
- 价值: ⭐⭐⭐⭐ 大幅降低面部 UV 纹理生成的数据门槛,具有实际应用前景