Bridging the Gap: Studio-Like Avatar Creation from a Monocular Phone Capture¶

会议: ECCV2024
arXiv: 2407.19593
代码: 无公开代码
领域: 图像生成
关键词: avatar creation, texture map, StyleGAN2, diffusion model, phone capture, studio lighting

一句话总结¶

提出从单目手机视频生成类似影棚级质量的面部纹理贴图的方法，结合 StyleGAN2 的 W+ 空间参数化与扩散模型超分辨率，实现从手机扫描到高质量 3D 头像的跨越。

背景与动机¶

传统的高质量头像创建依赖 LightStage 等复杂昂贵的影棚设备进行多角度、均匀光照下的捕获。虽然近年来基于神经表征的方法可以从手机快速扫描生成可驱动的 3D 头像，但存在三个核心缺陷：

光照烘焙：捕获时的环境光照被直接编码到纹理中，无法分离
细节缺失：面部细节（皱纹、毛孔等）分辨率不足
区域不完整：耳后等不可见区域存在空洞

这些问题导致手机捕获的头像质量远低于影棚级头像，限制了消费级头像创建的应用落地。

核心问题¶

如何从简短的单目手机视频中生成具有影棚级均匀光照、完整区域覆盖和高分辨率面部细节的纹理贴图？关键挑战在于：需要在去除环境光照的同时保持身份一致性，并填补不可见区域。

方法详解¶

整体流程分为两个阶段：基于 StyleGAN2 的光照迁移与区域补全（GMug），以及基于扩散模型的面部细节超分辨率。

阶段一：GMug — StyleGAN2 光照迁移¶

W+ 空间参数化：首先将手机捕获的纹理贴图通过 GAN Inversion 映射到 StyleGAN2 的 W+ 潜空间，实现近乎完美的重建。W+ 空间的每一层有独立的风格向量，低分辨率层编码身份信息，高分辨率层编码光照和细节。

对抗微调：使用少量影棚级纹理贴图作为判别器的真实样本，对 StyleGAN2 进行微调。关键设计是仅优化 8×8 分辨率之后的网络参数（记为 θ(8+)），冻结低分辨率参数以保持身份信息不被改变。

优化目标：

\[\min_{\text{GMug}^{\theta(8+)}} \max_{D_{Studio}} \mathcal{L}_{Adv} + \mathcal{L}_{R1} + \mathcal{L}_{Percp\text{-}Recons} + \lambda_1 \mathcal{L}_{Percp} + \lambda_2 \mathcal{L}_{FaceID}\]

各损失函数的作用：

\(\mathcal{L}_{Adv}\)：对抗损失，驱动生成结果逼近影棚级光照分布
\(\mathcal{L}_{R1}\)：判别器正则化，稳定训练
\(\mathcal{L}_{FaceID}\)：基于人脸识别网络的身份保持损失，防止身份漂移
\(\mathcal{L}_{Percp}\)：感知损失，提升训练稳定性并保持面部结构
\(\mathcal{L}_{Percp\text{-}Recons}\)：感知重建损失，使用少量配对数据防止全局肤色偏移

阶段二：扩散模型面部细节增强¶

GMug 的输出虽然具有均匀光照和完整覆盖，但分辨率受限于 StyleGAN2 的生成能力。为此，设计了一个扩散模型对纹理贴图进行超分辨率处理，其关键特点是使用手机纹理贴图的图像梯度作为引导信号，确保增强的细节与原始面部特征对齐。

实验关键数据¶

优化分辨率消融¶

设置	FaceID ↓	KID ↓
全网络优化	5.01e-4	1.36e-3
8×8 后优化（本文）	4.31e-4	1.42e-3
16×16 后优化	4.30e-4	1.63e-3

冻结 8×8 之前的参数实现了身份保持和分布逼真度之间的最佳平衡。

损失函数消融¶

设置	FaceID ↓
完整损失	5.36e-4
去除 \(\mathcal{L}_{FaceID}\)	1.33e-3
去除 \(\mathcal{L}_{FaceID}\) 和 \(\mathcal{L}_{Percp}\)	2.79e-3

去除身份损失后 FaceID 指标退化 2.5 倍；同时去除感知损失则导致训练不收敛。

定性结果¶

在非配对手机捕获数据上的对比显示，本方法在以下方面全面优于先前工作：身份保持、面部细节真实感、光照均匀性、缺失区域修复。

亮点¶

巧妙利用 StyleGAN2 的分层结构：通过冻结低分辨率层保持身份、微调高分辨率层迁移光照，实现了身份与光照的解耦
极少影棚数据即可工作：仅需少量影棚级纹理作为对抗训练信号，避免了大规模配对数据的需求
两阶段设计互补性强：GAN 负责全局光照迁移和区域补全，扩散模型负责局部高频细节增强
端到端实用性：输入为普通手机视频，输出为可直接用于渲染的高质量纹理贴图

局限与展望¶

仅建模头部：肩部、躯干等重要区域未覆盖，限制了全身头像应用
无法处理头部配饰：帽子、发带等配饰会被错误处理，因为影棚训练数据中不包含此类物品
依赖预训练 3D 模型：需要 Universal Prior Model（AVA）来渲染最终结果
泛化性存疑：对极端光照条件（逆光、彩色灯光等）的鲁棒性未充分验证

与相关工作的对比¶

AVA (Cao et al.)：提供了可驱动的头像框架，但纹理质量受限于手机捕获
StyleGAN-ADA：本文借鉴其少样本微调思路，但针对纹理贴图域做了特殊设计
传统 GAN Inversion：本文不是简单的图像编辑，而是跨域迁移（手机光照→影棚光照）
扩散模型超分：用图像梯度引导而非简单上采样，保证了面部细节的保真度

启发与关联¶

GAN 分层冻结策略可推广到其他需要保持特定语义不变的风格迁移任务
少样本对抗微调的范式适用于高质量数据稀缺但低质量数据丰富的场景
与 relighting 方向互补：本文做的是纹理贴图级别的光照标准化，而非像素级重光照
扩散模型作为后处理增强器的模式具有通用性，值得在其他 3D 重建管线中引入

评分¶

新颖性: ⭐⭐⭐⭐ — StyleGAN2 W+ 空间 + 分层冻结 + 扩散增强的组合设计巧妙
实验充分度: ⭐⭐⭐⭐ — 消融实验完整，但缺少用户研究和定量比较基线较少
写作质量: ⭐⭐⭐⭐ — 思路清晰，动机表达充分
价值: ⭐⭐⭐⭐ — 对消费级头像生成有直接实用价值