CanonicalFusion: Generating Drivable 3D Human Avatars from Multiple Images¶

会议: ECCV 2024
arXiv: 2407.04345
代码: 有
领域: 3D视觉
关键词: 可驱动3D人体, 规范空间融合, 前向蒙皮, 可微渲染, LBS权重压缩

一句话总结¶

提出CanonicalFusion框架,通过联合预测深度图和压缩LBS权重映射图实现直接规范化,并利用前向蒙皮可微渲染融合多张图像信息,从多张输入图像生成可驱动的3D人体Avatar。

研究背景与动机¶

从图像生成3D人体Avatar是元宇宙和AR/VR的关键技术。现有方法的局限:

隐式方法(PIFu系列): 分辨率受限于体素空间

显式方法(三明治式深度图): 多视图融合困难

模板驱动方法(ARCH系列): 远离模板表面的点初始化不准确

CanonicalFusion的核心想法: 在规范空间(canonical space)中融合多视图重建结果。

方法详解¶

整体框架¶

两步流程: 1. 初始网格预测: 共享编码器-双解码器网络预测双面深度图和压缩LBS权重图,直接规范化得到初始网格 2. 前向蒙皮可微渲染优化: 规范网格通过前向蒙皮变形 -> 可微光栅化渲染 -> 最小化几何和光度误差

关键设计¶

1. LBS权重的紧凑表示¶

用堆叠自编码器MLP将55维蒙皮权重压缩到3维潜空间。训练数据约800K个样本(SMPL-X UV坐标插值)。损失: L1 + 非零元素损失(高斯基函数近似) + KL散度。最后一层softmax保证权重和为1。预训练后推理只用解码器。

2. 联合深度和LBS预测¶

ATUNet架构,共享编码器+深度解码器+LBS解码器。输入RGB+SMPL-X深度图,输出前后面的深度图和3维压缩LBS权重图。额外UNet纹理预测网络输出去阴影的颜色图。

3. 规范网格重建¶

从LBS权重直接逆蒙皮到规范空间。不可见区域(腋下、大腿内侧)通过SDF集成填补: 结合重建网格和SMPL-X模板网格的有符号距离,根据点是否在重建网格附近选择SDF。Marching Cubes提取后用Flexicubes转化为可微紧凑网格。

4. 前向蒙皮可微渲染优化¶

将规范网格通过前向蒙皮变形到各输入姿态,用NDS光栅化渲染,同时优化规范网格顶点位置/颜色和3D姿态参数。渐进式: 先优化姿态,再固定姿态优化形状和颜色。每500次迭代上采样4倍,总计2000迭代。

损失函数 / 训练策略¶

优化目标: Laplacian平滑 + 法线一致性正则 + 法线图L1 + 掩码MSE + Chamfer距离 + 颜色L2。4xRTX 3090训练2天,推理约11分钟。

实验关键数据¶

主实验: 单目人体重建对比¶

方法	训练数据	RP P2S↓	RP CF↓	TH3.0 P2S↓	TH3.0 CF↓
PIFuHD	RP	1.420	1.434	1.534	1.527
ICON*	RP	1.296	1.364	1.371	1.437
2K2K*	TH2.0+RP	1.097	1.195	1.416	1.542
TeCH*	N/A	1.489	1.523	1.721	1.795
Ours	TH2.0+RP	0.886	0.943	1.072	1.165

(P2S=点到面距离cm, CF=Chamfer距离cm, *=使用GT SMPL-X)

与SCANimate对比(规范空间精度)¶

方法	视角数	SET1 P2S↓	SET2 P2S↓
SCANimate	5	1.362	1.076
SCANimate	15	1.103	0.997
Ours	5	0.244	0.180
Ours	15	0.199	0.149

P2S误差仅为SCANimate的约1/5。

消融实验¶

姿态误差修正: 同时优化姿态参数有效纠正初始网格的手臂弯曲等误差
宽松衣物: 从初始规范网格出发(非模板),拓扑结构更接近目标,可恢复宽松衣物
多帧融合: 多帧显著提高模型完整性
真实场景: Actors-HQ和野外拍摄均可生成逼真Avatar

关键发现¶

显式深度预测+SMPL-X引导仍是有效方法,无需复杂隐式技术
多样化数据集一致提升性能
前向蒙皮优于逆蒙皮(SCANimate在姿态误差下严重退化)
LBS权重压缩到3维几乎无精度损失

亮点与洞察¶

3维LBS压缩: 将55维稀疏蒙皮权重压缩到3维,既降低预测难度又可可视化
规范空间融合: 避免观测空间多视图融合的几何对齐困难
姿态-形状联合优化: 缓解姿态估计误差的级联影响
SDF集成填补空洞: 巧妙结合重建网格和模板网格
任意数量输入: 1张到数十张均可

局限与展望¶

非刚性衣物变形: 帧间变形过大可能产生模糊
手部细节: 需借助外部手部替换模块
依赖SMPL-X估计: 初始深度图依赖SMPL-X参数质量
未来: 处理头发和衣物非刚性变形,结合生成式技术

评分¶

新颖性: ⭐⭐⭐⭐ — LBS压缩和规范空间融合策略新颖实用
实用性: ⭐⭐⭐⭐ — 可直接驱动,已开源,支持任意数量输入
实验充分度: ⭐⭐⭐⭐ — 多数据集/多方法对比+丰富消融
写作质量: ⭐⭐⭐⭐ — 流程清晰,配图丰富