跳转至

FreeUV: Ground-Truth-Free Realistic Facial UV Texture Recovery via Cross-Assembly

会议: CVPR 2025
arXiv: 2503.17197
代码: 无
领域: 扩散模型
关键词: 人脸UV纹理恢复, 无GT训练, 跨装配推理, Stable Diffusion, 3DMM

一句话总结

FreeUV 提出了一种不需要 ground-truth UV 纹理数据的面部 UV 纹理恢复框架,通过分别训练关注真实外观的 UV-to-2D 网络和关注结构一致性的 2D-to-UV 网络,在推理时将两者的 UV 相关模块跨装配(Cross-Assembly)到预训练 Stable Diffusion 中,实现高保真的 UV-to-UV 纹理生成。

研究背景与动机

领域现状:从单张 2D 人脸图像恢复高质量的 3D 面部 UV 纹理是计算机视觉和图形学的长期挑战。基于 3DMM 的重建方法可以获得粗糙的几何和纹理,但难以捕捉皱纹、毛孔、胡须、化妆等精细纹理细节。

现有痛点:现有的高质量 UV 纹理生成方法严重依赖 ground-truth UV 数据。一类方法依赖昂贵的专业设备采集的真实 UV 数据集,泛化性差;另一类方法用 StyleGAN 合成训练数据,但受限于 StyleGAN 的能力(domain gap、多步流程导致 identity/表情/光照不一致),难以处理多样化的真实人脸(如化妆遮挡等)。

核心矛盾:获取完整、真实的 UV 纹理 ground truth 本身既昂贵又近乎不可能做到高保真——这是所有监督方法的根本瓶颈。而从单视角 3DMM fitting 得到的 unwrapped UV 纹理存在严重缺陷(扭曲、缺失区域、对齐不精确),不能直接用作训练目标。

本文目标 如何在完全不需要完整 UV 纹理 ground truth 的情况下,从单张人脸图像恢复高保真、结构一致的完整 UV 纹理?

切入角度:作者观察到 in-the-wild 数据域提供了真实外观但 UV 结构不可靠,3DMM 数据域提供了可靠结构但外观不真实。两个域各有优劣——UV-to-2D 映射在 in-the-wild 域是可靠的(渲染过程),2D-to-UV 映射在 3DMM 域是一致的(数据对齐)。

核心 idea:分别在两个域训练互补的网络(in-the-wild 域学外观、3DMM 域学结构),推理时跨装配两者的 UV 相关模块实现 UV-to-UV 纹理生成。

方法详解

整体框架

FreeUV 基于预训练 Stable Diffusion v1.5,包含两个独立训练的网络:(1) 外观网络 \(\phi_a\):在 in-the-wild 域训练,输入有缺陷的 UV 纹理 \(\mathbf{T}_w\),输出 masked 2D 人脸图像 \(\mathbf{I}_w\)(UV-to-2D 映射),其中的 Flaw-Tolerant Detail Extractor \(\psi_a\) 学习从有缺陷的 UV 中提取真实面部细节;(2) 结构网络 \(\phi_s\):在 3DMM 域训练,输入 masked 3DMM 人脸图像 \(\mathbf{I}_m\),输出 masked 3DMM UV 纹理 \(\mathbf{T}_m\)(2D-to-UV 映射),其中的 UV Structure Aligner \(\psi_s\) 学习结构一致的 UV 布局映射。推理时,将 \(\psi_a\)\(\psi_s\) 组合到 SD 模型中,直接完成 UV-to-UV 映射。

关键设计

  1. Flaw-Tolerant Facial Detail Extractor (\(\psi_a\), 容错面部细节提取器):

    • 功能:从有缺陷的 unwrapped UV 纹理中提取并保留精细面部特征(胡须、皱纹、化妆等),同时抑制扭曲和缺陷区域的影响
    • 核心思路:使用 CLIP 图像编码器从多层提取特征后沿特征轴拼接(Stable-Makeup 方法),再加入通道注意力(channel attention)选择性强调相关信息。通道注意力擅长从 UV 纹理的"降采样"过程中识别关键特征。网络同时接收 masked UV 位置图 \(\mathbf{I}_{uv}\) 和 2D landmarks \(\mathbf{I}_{lm}\) 作为结构引导。
    • 设计动机:3DMM fitting 无法实现像素级对齐,直接用有缺陷的 UV 训练会将伪影传播到输出。通道注意力能够选择性地关注可靠的特征通道而忽略受损区域,2D landmarks 补偿了 UV 位置图与 2D 图像的对齐偏差。
  2. UV Structure Aligner (\(\psi_s\), UV 结构对齐器):

    • 功能:引导生成的 UV 纹理精确符合 3DMM 的 UV 布局结构,确保结构一致性
    • 核心思路:基于 ControlNet 架构,在 3DMM 域训练,输入像素级对齐的 masked 3DMM 图像 \(\mathbf{I}_m\) 和 masked UV 位置图 \(\mathbf{T}_{uv}\)(均由相同 3DMM 参数生成),完成 2D-to-UV 映射。特征提取器使用 CLIP 的空间感知自注意力(spatial-aware self-attention),因为 2D-to-UV 映射相当于"上采样"过程,需要在特征间插值。
    • 设计动机:2D-to-UV 映射在 3DMM 域是像素级一致的,利用这种天然对齐训练 ControlNet 可以学到准确的结构映射。使用自注意力而非通道注意力是因为"上采样"需要捕捉特征间的空间关系进行准确插值。
  3. Cross-Assembly Inference Strategy(跨装配推理策略):

    • 功能:在推理时将两个独立训练的网络模块组合,从有缺陷的 UV 输入直接生成完整的高保真 UV 纹理
    • 核心思路:将外观网络的 \(\psi_a\)(提供真实细节特征)和结构网络的 \(\psi_s\)(提供 UV 布局引导)共同接入 SD 模型。\(\psi_a\)\(\mathbf{T}_w\) 提取外观特征,\(\psi_s\) 基于完整的 UV 位置图 \(\mathbf{\Upsilon}_{uv}\) 提供结构引导,生成完整 UV 纹理 \(\mathbf{\Upsilon}_w\)。最后用 Lab 色彩空间的均值-方差匹配做颜色校正。
    • 设计动机:两个网络训练时的输入-输出映射是对称且互补的(UV→2D 和 2D→UV),但都不直接做 UV→UV。跨装配利用了各自在不同域学到的专长,避免了任何一个网络独立生成时的结构失败或细节丢失问题。

损失函数 / 训练策略

两个网络均使用标准的扩散模型去噪损失:外观网络 \(\mathcal{L}_a(\theta) = \mathbb{E}[\|\epsilon - \epsilon_\theta(\mathbf{x}_t, t, \mathbf{c}_T^w, \mathbf{c}_I^{uv}, \mathbf{c}_I^{lm})\|_2^2]\);结构网络 \(\mathcal{L}_s(\theta) = \mathbb{E}[\|\epsilon - \epsilon_\theta(\mathbf{x}_t, t, \mathbf{c}_I^m, \mathbf{c}_T^{uv})\|_2^2]\)。训练在单块 A100 上进行 80,000 迭代,batch size 4,学习率 \(3 \times 10^{-5}\)。推理用 DDIM 30 步,guidance scale 1.4。

实验关键数据

主实验

数据集 指标 FreeUV HRN UV-IDM FLAME-based
FFHQ CLIP-I↑ 0.8490 0.8327 0.7986 0.8218
FFHQ DINO-I↑ 0.7559 0.7389 0.5836 0.7269
FFHQ FID↓ 142.39 166.19 228.74 158.06
CelebAMask-HQ CLIP-I↑ 0.8272 0.8259 0.7458 0.8016
CelebAMask-HQ DINO-I↑ 0.7948 0.7382 0.5690 0.7640
LPFF (大角度) CLIP-I↑ 0.7997 0.7368 0.7440 0.7822
LPFF (大角度) DINO-I↑ 0.6835 0.5951 0.5345 0.6724

消融实验

配置 RMSE↓ SSIM↑ LPIPS↓ PSNR↑
\(\phi_a^{ch} + \phi_s^{self}\) (Ours) 0.0276 0.8001 0.0463 30.848
\(\phi_a^{self} + \phi_s^{self}\) 0.0302 0.7881 0.0474 30.397
\(\phi_a^{self} + \phi_s^{ch}\) 0.0367 0.7876 0.0539 28.693
\(\phi_a^{ch} + \phi_s^{ch}\) 0.0379 0.7648 0.0639 28.417
w/o landmarks 0.0292 0.7928 0.0481 30.624
w/o color adjustment 0.0282 0.7992 0.0531 30.828

关键发现

  • 注意力类型的选择至关重要:外观网络用通道注意力、结构网络用自注意力的组合最优。反过来用(\(\phi_a^{self} + \phi_s^{ch}\))PSNR 下降超过 2dB
  • UV-to-2D 是"降采样"过程适合通道注意力(选择关键特征),2D-to-UV 是"上采样"过程适合自注意力(插值特征关系)
  • 2D landmarks 的加入有效补偿了 3DMM fitting 的对齐误差,去掉后 RMSE 从 0.0276 升高到 0.0292
  • FreeUV 在大角度和遮挡场景下表现尤其稳健,得益于 Flaw-Tolerant 设计

亮点与洞察

  • Cross-Assembly 推理策略是核心创新——两个网络分别在不同域学习互补的映射,推理时组合到一起。这种"分而学之、合而用之"的思路可推广到任何存在域差异但各域有互补优势的生成任务
  • 无需 GT UV 数据大幅降低了数据获取门槛,仅用 FFHQ 的 33K 张图像即可训练,比需要扫描设备或 StyleGAN 合成的方法更具可扩展性
  • 对注意力机制在"上采样 vs 下采样"映射中作用的分析很有洞察——通道注意力负责选择,自注意力负责插值

局限与展望

  • 对非常精细的面部元素(饰品、斑点、瑕疵)可能出现位置偏移或数量变化
  • 遮挡区域(如帽子下方)的恢复可能会不自然地延伸周围纹理
  • 依赖 3DMM fitting 质量,如果 fitting 失败(如人脸分割错误),输出质量会明显下降
  • 推理速度受限于 SD 30 步采样(4.75 秒/张),可考虑蒸馏加速
  • 仅处理皮肤区域,未扩展到眼睛、嘴巴等完整面部

相关工作与启发

  • vs FFHQ-UV: FFHQ-UV 需要资源密集的迭代优化来创建 UV ground truth,FreeUV 完全消除了这一依赖
  • vs UV-IDM: UV-IDM 先用 StyleGAN 生成多视角图再合成 UV 对,受限于 StyleGAN 能力且多步流程易产生不一致,FreeUV 直接从单图端到端恢复
  • vs DSD-GAN: 同样无需 GT UV,但 DSD-GAN 使用 GAN 存在结构对齐伪影,FreeUV 基于扩散模型更稳健

评分

  • 新颖性: ⭐⭐⭐⭐ Cross-Assembly 跨域互补思路巧妙,从"降采样/上采样"角度理解注意力机制有新颖洞察
  • 实验充分度: ⭐⭐⭐⭐ 跨三个数据集与多种方法对比,消融研究全面
  • 写作质量: ⭐⭐⭐⭐ 表格总结(Tab.1)清晰展示跨域选择逻辑,动机阐述透彻
  • 价值: ⭐⭐⭐⭐ 大幅降低面部 UV 纹理生成的数据门槛,具有实际应用前景