FreeUV: Ground-Truth-Free Realistic Facial UV Texture Recovery via Cross-Assembly¶

会议: CVPR 2025
arXiv: 2503.17197
代码: 无
领域: 扩散模型
关键词: 人脸UV纹理恢复, 无GT训练, 跨装配推理, Stable Diffusion, 3DMM

一句话总结¶

FreeUV 提出了一种不需要 ground-truth UV 纹理数据的面部 UV 纹理恢复框架，通过分别训练关注真实外观的 UV-to-2D 网络和关注结构一致性的 2D-to-UV 网络，在推理时将两者的 UV 相关模块跨装配（Cross-Assembly）到预训练 Stable Diffusion 中，实现高保真的 UV-to-UV 纹理生成。

研究背景与动机¶

领域现状：从单张 2D 人脸图像恢复高质量的 3D 面部 UV 纹理是计算机视觉和图形学的长期挑战。基于 3DMM 的重建方法可以获得粗糙的几何和纹理，但难以捕捉皱纹、毛孔、胡须、化妆等精细纹理细节。

现有痛点：现有的高质量 UV 纹理生成方法严重依赖 ground-truth UV 数据。一类方法依赖昂贵的专业设备采集的真实 UV 数据集，泛化性差；另一类方法用 StyleGAN 合成训练数据，但受限于 StyleGAN 的能力（domain gap、多步流程导致 identity/表情/光照不一致），难以处理多样化的真实人脸（如化妆遮挡等）。

核心矛盾：获取完整、真实的 UV 纹理 ground truth 本身既昂贵又近乎不可能做到高保真——这是所有监督方法的根本瓶颈。而从单视角 3DMM fitting 得到的 unwrapped UV 纹理存在严重缺陷（扭曲、缺失区域、对齐不精确），不能直接用作训练目标。

本文目标 如何在完全不需要完整 UV 纹理 ground truth 的情况下，从单张人脸图像恢复高保真、结构一致的完整 UV 纹理？

切入角度：作者观察到 in-the-wild 数据域提供了真实外观但 UV 结构不可靠，3DMM 数据域提供了可靠结构但外观不真实。两个域各有优劣——UV-to-2D 映射在 in-the-wild 域是可靠的（渲染过程），2D-to-UV 映射在 3DMM 域是一致的（数据对齐）。

核心 idea：分别在两个域训练互补的网络（in-the-wild 域学外观、3DMM 域学结构），推理时跨装配两者的 UV 相关模块实现 UV-to-UV 纹理生成。

方法详解¶

整体框架¶

FreeUV 基于预训练 Stable Diffusion v1.5，包含两个独立训练的网络：(1) 外观网络 \(\phi_a\)：在 in-the-wild 域训练，输入有缺陷的 UV 纹理 \(\mathbf{T}_w\)，输出 masked 2D 人脸图像 \(\mathbf{I}_w\)（UV-to-2D 映射），其中的 Flaw-Tolerant Detail Extractor \(\psi_a\) 学习从有缺陷的 UV 中提取真实面部细节；(2) 结构网络 \(\phi_s\)：在 3DMM 域训练，输入 masked 3DMM 人脸图像 \(\mathbf{I}_m\)，输出 masked 3DMM UV 纹理 \(\mathbf{T}_m\)（2D-to-UV 映射），其中的 UV Structure Aligner \(\psi_s\) 学习结构一致的 UV 布局映射。推理时，将 \(\psi_a\) 和 \(\psi_s\) 组合到 SD 模型中，直接完成 UV-to-UV 映射。

关键设计¶

Flaw-Tolerant Facial Detail Extractor (\(\psi_a\), 容错面部细节提取器):
- 功能：从有缺陷的 unwrapped UV 纹理中提取并保留精细面部特征（胡须、皱纹、化妆等），同时抑制扭曲和缺陷区域的影响
- 核心思路：使用 CLIP 图像编码器从多层提取特征后沿特征轴拼接（Stable-Makeup 方法），再加入通道注意力（channel attention）选择性强调相关信息。通道注意力擅长从 UV 纹理的"降采样"过程中识别关键特征。网络同时接收 masked UV 位置图 \(\mathbf{I}_{uv}\) 和 2D landmarks \(\mathbf{I}_{lm}\) 作为结构引导。
- 设计动机：3DMM fitting 无法实现像素级对齐，直接用有缺陷的 UV 训练会将伪影传播到输出。通道注意力能够选择性地关注可靠的特征通道而忽略受损区域，2D landmarks 补偿了 UV 位置图与 2D 图像的对齐偏差。
UV Structure Aligner (\(\psi_s\), UV 结构对齐器):
- 功能：引导生成的 UV 纹理精确符合 3DMM 的 UV 布局结构，确保结构一致性
- 核心思路：基于 ControlNet 架构，在 3DMM 域训练，输入像素级对齐的 masked 3DMM 图像 \(\mathbf{I}_m\) 和 masked UV 位置图 \(\mathbf{T}_{uv}\)（均由相同 3DMM 参数生成），完成 2D-to-UV 映射。特征提取器使用 CLIP 的空间感知自注意力（spatial-aware self-attention），因为 2D-to-UV 映射相当于"上采样"过程，需要在特征间插值。
- 设计动机：2D-to-UV 映射在 3DMM 域是像素级一致的，利用这种天然对齐训练 ControlNet 可以学到准确的结构映射。使用自注意力而非通道注意力是因为"上采样"需要捕捉特征间的空间关系进行准确插值。
Cross-Assembly Inference Strategy（跨装配推理策略）:
- 功能：在推理时将两个独立训练的网络模块组合，从有缺陷的 UV 输入直接生成完整的高保真 UV 纹理
- 核心思路：将外观网络的 \(\psi_a\)（提供真实细节特征）和结构网络的 \(\psi_s\)（提供 UV 布局引导）共同接入 SD 模型。\(\psi_a\) 从 \(\mathbf{T}_w\) 提取外观特征，\(\psi_s\) 基于完整的 UV 位置图 \(\mathbf{\Upsilon}_{uv}\) 提供结构引导，生成完整 UV 纹理 \(\mathbf{\Upsilon}_w\)。最后用 Lab 色彩空间的均值-方差匹配做颜色校正。
- 设计动机：两个网络训练时的输入-输出映射是对称且互补的（UV→2D 和 2D→UV），但都不直接做 UV→UV。跨装配利用了各自在不同域学到的专长，避免了任何一个网络独立生成时的结构失败或细节丢失问题。

损失函数 / 训练策略¶

两个网络均使用标准的扩散模型去噪损失：外观网络 \(\mathcal{L}_a(\theta) = \mathbb{E}[\|\epsilon - \epsilon_\theta(\mathbf{x}_t, t, \mathbf{c}_T^w, \mathbf{c}_I^{uv}, \mathbf{c}_I^{lm})\|_2^2]\)；结构网络 \(\mathcal{L}_s(\theta) = \mathbb{E}[\|\epsilon - \epsilon_\theta(\mathbf{x}_t, t, \mathbf{c}_I^m, \mathbf{c}_T^{uv})\|_2^2]\)。训练在单块 A100 上进行 80,000 迭代，batch size 4，学习率 \(3 \times 10^{-5}\)。推理用 DDIM 30 步，guidance scale 1.4。

实验关键数据¶

主实验¶

数据集	指标	FreeUV	HRN	UV-IDM	FLAME-based
FFHQ	CLIP-I↑	0.8490	0.8327	0.7986	0.8218
FFHQ	DINO-I↑	0.7559	0.7389	0.5836	0.7269
FFHQ	FID↓	142.39	166.19	228.74	158.06
CelebAMask-HQ	CLIP-I↑	0.8272	0.8259	0.7458	0.8016
CelebAMask-HQ	DINO-I↑	0.7948	0.7382	0.5690	0.7640
LPFF (大角度)	CLIP-I↑	0.7997	0.7368	0.7440	0.7822
LPFF (大角度)	DINO-I↑	0.6835	0.5951	0.5345	0.6724

消融实验¶

配置	RMSE↓	SSIM↑	LPIPS↓	PSNR↑
\(\phi_a^{ch} + \phi_s^{self}\) (Ours)	0.0276	0.8001	0.0463	30.848
\(\phi_a^{self} + \phi_s^{self}\)	0.0302	0.7881	0.0474	30.397
\(\phi_a^{self} + \phi_s^{ch}\)	0.0367	0.7876	0.0539	28.693
\(\phi_a^{ch} + \phi_s^{ch}\)	0.0379	0.7648	0.0639	28.417
w/o landmarks	0.0292	0.7928	0.0481	30.624
w/o color adjustment	0.0282	0.7992	0.0531	30.828

关键发现¶

注意力类型的选择至关重要：外观网络用通道注意力、结构网络用自注意力的组合最优。反过来用（\(\phi_a^{self} + \phi_s^{ch}\)）PSNR 下降超过 2dB
UV-to-2D 是"降采样"过程适合通道注意力（选择关键特征），2D-to-UV 是"上采样"过程适合自注意力（插值特征关系）
2D landmarks 的加入有效补偿了 3DMM fitting 的对齐误差，去掉后 RMSE 从 0.0276 升高到 0.0292
FreeUV 在大角度和遮挡场景下表现尤其稳健，得益于 Flaw-Tolerant 设计

亮点与洞察¶

Cross-Assembly 推理策略是核心创新——两个网络分别在不同域学习互补的映射，推理时组合到一起。这种"分而学之、合而用之"的思路可推广到任何存在域差异但各域有互补优势的生成任务
无需 GT UV 数据大幅降低了数据获取门槛，仅用 FFHQ 的 33K 张图像即可训练，比需要扫描设备或 StyleGAN 合成的方法更具可扩展性
对注意力机制在"上采样 vs 下采样"映射中作用的分析很有洞察——通道注意力负责选择，自注意力负责插值

局限与展望¶

对非常精细的面部元素（饰品、斑点、瑕疵）可能出现位置偏移或数量变化
遮挡区域（如帽子下方）的恢复可能会不自然地延伸周围纹理
依赖 3DMM fitting 质量，如果 fitting 失败（如人脸分割错误），输出质量会明显下降
推理速度受限于 SD 30 步采样（4.75 秒/张），可考虑蒸馏加速
仅处理皮肤区域，未扩展到眼睛、嘴巴等完整面部

评分¶

新颖性: ⭐⭐⭐⭐ Cross-Assembly 跨域互补思路巧妙，从"降采样/上采样"角度理解注意力机制有新颖洞察
实验充分度: ⭐⭐⭐⭐ 跨三个数据集与多种方法对比，消融研究全面
写作质量: ⭐⭐⭐⭐ 表格总结（Tab.1）清晰展示跨域选择逻辑，动机阐述透彻
价值: ⭐⭐⭐⭐ 大幅降低面部 UV 纹理生成的数据门槛，具有实际应用前景