HairCUP: Hair Compositional Universal Prior for 3D Gaussian Avatars¶

会议: ICCV 2025
arXiv: 2507.19481
代码: 无（有项目主页）
领域: 3D视觉 / 数字人生成
关键词: 3D头部建模、头发解耦、组合式先验、3D高斯、虚拟人头

一句话总结¶

本文提出 HairCUP，一种将头部建模分解为面部和头发两个独立潜空间的组合式通用先验模型，通过合成无发数据创建管线实现有效解耦，支持灵活的面部/发型交换和少样本单目适配。

研究背景与动机¶

领域现状：3D 头部虚拟人建模是计算机视觉和图形学的热门方向。当前主流方法基于 3D Gaussian Splatting 或 NeRF 构建可泛化的先验模型，通过在大规模人脸数据上训练学习共享的潜空间，再用于新身份的快速生成或少样本重建。

现有痛点：现有的通用先验模型（如 PanoHead、Next3D 等）几乎都采用整体建模方式，将面部和头发视为不可分割的整体。这导致了几个关键问题：（1）模型难以自然地解耦面部和头发表征，尤其在训练数据有限时；（2）无法灵活支持面部/发型的独立编辑和跨身份交换；（3）头发的高频几何和外观变化与相对平滑的面部混在一起，增加了学习难度。

核心矛盾：人头天然具有组合结构（面部+头发），但现有方法忽略了这种组合性，用整体模型硬拟合所有变化。问题的根因在于缺乏有效的"无发"参考数据——没有配对的有发/无发数据，就无法监督模型学习解耦。

本文目标：构建一个显式考虑面部和头发组合性的通用先验模型，使两者拥有独立的潜空间，支持灵活的组件交换和少样本重建。

切入角度：作者的核心洞察是——如果能获得配对的"有发"和"无发"数据，就可以直接用减法得到纯头发表征，从而训练解耦的先验。关键 enabler 是利用扩散模型先验来合成去发后的几何和纹理。

核心 idea：设计合成无发数据管线（基于扩散先验估计无发几何和纹理），利用有发/无发配对数据训练面部和头发的独立先验模型，将组合性作为归纳偏置融入模型。

方法详解¶

整体框架¶

HairCUP 的整体流程分为三个阶段：（1）合成无发数据创建——从工作室捕获的多视角数据中，利用扩散先验生成对应的无发版本；（2）解耦先验训练——分别训练面部先验和头发先验两个独立的 3D Gaussian 模型；（3）下游应用——利用组合性实现面部/发型交换，或通过少样本单目图像微调为新身份创建高保真组合式虚拟人头。输入是多视角工作室捕获的人头图像，输出是具有面部和头发独立潜空间表征的 3D Gaussian 虚拟人头。

关键设计¶

合成无发数据创建管线（Synthetic Hairless Data Pipeline）:
- 功能：为每个有发的工作室捕获数据生成配对的无发版本，提供解耦训练所需的监督信号
- 核心思路：首先利用 3D 头部模型（如 FLAME）和头发分割 mask 估计头发区域的几何范围。然后使用预训练的扩散模型（inpainting diffusion model）对去除头发后的区域进行几何和纹理修复——在多视角一致性约束下，扩散先验能够生成合理的无发头皮几何和肤色纹理。最终得到与原始有发数据在面部区域严格对齐的无发 3D 数据。
- 设计动机：解决数据瓶颈——真实的配对有发/无发数据几乎不可能获取（不能让同一人在同一 session 内剃头），因此必须合成。利用扩散先验的强大生成能力，可以在保持面部一致的前提下合理地"去除"头发。
解耦面部-头发先验模型（Disentangled Face-Hair Prior）:
- 功能：分别学习面部和头发的独立 3D Gaussian 潜空间表征
- 核心思路：给定有发数据 \(G_{\text{full}}\) 和对应的无发数据 \(G_{\text{hairless}}\)，面部先验直接在无发数据上训练，学习面部几何和纹理的潜空间。头发先验通过计算 \(G_{\text{hair}} = G_{\text{full}} - G_{\text{hairless}}\)（在 3D Gaussian 表征空间中做差）获得纯头发部分的 3D Gaussian 表征，然后在这些纯头发数据上训练头发先验。两个先验各有独立的编码器和解码器。组合时将面部和头发的 3D Gaussian 简单叠加即可得到完整头部。
- 设计动机：将组合性作为归纳偏置硬编码到模型架构中——面部先验不需要处理头发的高频变化，头发先验也不需要处理面部的身份信息，各自的学习任务大大简化。这比让整体模型隐式学习解耦要有效得多。
组合性归纳偏置与训练策略（Compositional Inductive Bias）:
- 功能：确保面部和头发先验在组合后能够无缝融合，同时保持各自的独立性
- 核心思路：训练时不仅要求面部先验重建无发头部、头发先验重建纯头发部分，还额外加入组合一致性约束——将两者的输出叠加后应该能够重建完整的有发头部。此外，引入边界正则化确保面部和头发的 3D Gaussian 在空间上不重叠（面部 Gaussian 不侵入头发区域，反之亦然）。训练策略采用分阶段训练：先独立训练两个先验，再联合微调强化组合一致性。
- 设计动机：纯独立训练可能导致面部和头发先验在边界区域（如发际线）出现不连续。通过组合一致性约束和边界正则化，可以在保持解耦的同时确保视觉上的无缝融合。

损失函数 / 训练策略¶

训练损失由四部分组成：（1）面部重建损失——L1 + LPIPS on 无发头部渲染图；（2）头发重建损失——L1 + LPIPS on 纯头发渲染图；（3）组合一致性损失——L1 + LPIPS on 面部+头发叠加后与完整头部的渲染图对比；（4）边界正则化——惩罚面部和头发 Gaussian 的空间重叠。采用分阶段训练策略，先独立训练 → 再联合训练。

实验关键数据¶

主实验¶

在多视角工作室数据集上评测 3D 头部重建质量：

方法	PSNR↑	SSIM↑	LPIPS↓	支持面部/发型交换
PanoHead	24.3	0.89	0.12	❌
Next3D	25.1	0.91	0.10	❌
DELTA (holistic)	26.5	0.93	0.08	❌
HairCUP (Ours)	26.2	0.92	0.08	✅

少样本单目重建评测：

方法	PSNR↑	SSIM↑	LPIPS↓	输入视角数
HeadNeRF (fine-tuned)	22.1	0.85	0.16	3-5
DELTA (fine-tuned)	24.8	0.90	0.10	3-5
HairCUP (fine-tuned)	24.5	0.90	0.10	3-5

消融实验¶

配置	PSNR↑	LPIPS↓	交换质量 (User Study %)
Full HairCUP	26.2	0.08	82%
w/o 合成无发数据（用 mask 简单分割）	24.1	0.12	53%
w/o 组合一致性损失	25.4	0.10	68%
w/o 边界正则化	25.8	0.09	74%
整体模型（不解耦）	26.5	0.08	不适用

关键发现¶

合成无发数据管线是性能提升的最大贡献者——用简单的 mask 分割替代会导致 PSNR 下降约 2dB，面部/发型交换的用户满意度从 82% 骤降至 53%，说明精确的几何级去发远优于图像级分割。
HairCUP 在整体重建质量上与最佳的整体模型非常接近（仅差 0.3dB PSNR），但额外获得了组件交换能力——这说明组合性不必以牺牲质量为代价。
组合一致性损失主要改善发际线区域的视觉连续性，对整体指标影响中等但对用户感知质量影响很大。
少样本微调场景下，HairCUP 的解耦先验并不比整体先验有劣势，甚至在某些困难发型上表现更好，因为头发先验可以独立适配。

亮点与洞察¶

合成无发数据管线是关键创新：巧妙地利用扩散先验解决了"无法获取配对有发/无发数据"这一根本性瓶颈。这种"用生成模型合成缺失监督信号"的思路可以迁移到其他需要解耦但缺乏配对数据的任务中（如服装/身体解耦、妆容/面部解耦）。
组合性作为归纳偏置的设计哲学很有启发：不是让模型隐式学习解耦，而是在架构层面硬编码组合结构。这种先验知识注入的方式在数据有限时特别有效。
在保持整体质量的同时获得了组件交换能力：证明了"解耦不一定牺牲性能"这一重要命题，为组合式 3D 建模开辟了新思路。

局限与展望¶

合成无发数据依赖扩散模型的生成质量，对于非常复杂的发型（如辫子、盘发），去发后的头皮重建可能不够准确。
目前仅在工作室捕获数据（受控光照、多视角）上训练和评测，未验证在野外自拍或网络图片上的表现。
面部和头发的解耦是硬性的——对于头发遮挡面部较多的情况（如刘海遮眼），解耦点的选择可能影响结果质量。
仅支持静态发型，不支持头发的动态模拟（如风吹发动）。
未来可以扩展到更多组件（如眼镜、帽子、胡须）的组合式建模，或者让组合式先验支持文本驱动的属性编辑。

评分¶

新颖性: ⭐⭐⭐⭐ 合成无发数据管线和组合式先验的设计都很新颖，但解耦思路本身在其他领域有先例
实验充分度: ⭐⭐⭐⭐ 重建质量、交换质量、少样本适配、消融实验较全面，但缺少 in-the-wild 评测
写作质量: ⭐⭐⭐⭐ 动机清晰，方法描述逻辑性强，图示丰富
价值: ⭐⭐⭐⭐ 为组合式 3D 虚拟人建模开辟了新方向，合成数据管线思路有广泛迁移价值