Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars¶

会议: ICCV 2025
arXiv: 2502.20220
代码: 无公开代码
领域: 人体理解
关键词: 3D高斯, 头部头像重建, 面部动画, 大重建模型, 前馈推理

一句话总结¶

提出Avat3r——首个可动画的大型3D重建模型(LRM)，仅需4张输入图像即可在前馈方式下回归出高质量可驱动的3D高斯头部头像，通过整合DUSt3R位置图和Sapiens语义特征作为先验、并用简单的cross-attention建模表情动画，在Ava256和NeRSemble数据集上大幅超越现有方法。

研究背景与动机¶

创建照片级3D头部头像在远程呈现、电影制作、个性化游戏等领域需求旺盛，但现有方法各有严重局限： - Studio级优化方法（如URAvatar）需要多视角录制+昂贵的测试时优化（8×A100训练3小时），不适合消费级场景 - 单目视频重建（如FlashAvatar）会过拟合训练视角，新视角外推能力差 - 3D感知肖像动画（如GPAvatar、GAGAvatar）主要聚焦正面渲染，牺牲3D一致性换取图像质量 - 照片级3D人脸模型（如GPHM、HeadGAP）受限于训练数据身份数量（仅几百人），难以学习人脸外观的完整分布

核心观察：3D人脸数据在身份轴上有限（仅几百人），但在表情轴上数据充足（每人数千帧不同表情）。因此可以设计一个条件于身份（由输入图像提供）、仅在表情轴上泛化的系统，避免学习人脸外观的全分布。这一"只在数据充足的轴泛化"的设计哲学是本文的核心创新思路。

方法详解¶

整体框架¶

输入4张带相机参数的图像 + 目标表情编码 \(z_{exp}\) → DUSt3R生成位置图 \(I^{pos}\) + Sapiens提取语义特征图 \(I^{feat}\) → 图像/位置/射线拼接后patchify → Vision Transformer主干（self-attention做跨视角匹配 + cross-attention注入表情信息）→ 上采样为每像素高斯属性图 \(M\) → 位置/颜色skip connection → 置信度阈值过滤 → 输出3D高斯集合 \(\mathcal{G}\)，可从任意视角渲染。整个流程是纯前馈推理，无需测试时优化。

关键设计¶

基础模型先验注入（DUSt3R + Sapiens）: DUSt3R预测稠密位置图作为每个高斯的粗略3D位置初始化，通过skip connection加到最终位置预测上（\(M^{pos} \leftarrow M^{pos}+I^{pos}\)）。Sapiens 2b模型提取低分辨率语义特征图，通过GridSample对齐分辨率后与token拼接，简化后续Transformer的跨视角匹配任务。两者均离线预计算以节省训练开销。关键发现：DUSt3R在输入不一致（不同表情）时仍能产生合理的位置图。
可动画的大型重建模型架构: 采用GRM风格的Vision Transformer。输入图像 \(I\)、位置图 \(I^{pos}\)、Plücker射线坐标 \(I^{pluck}\) 拼接后patchify为token。核心由8层self-attention（跨视角匹配）+ 8层cross-attention（表情注入）组成。表情编码通过MLP投影为长度 \(S=4\) 的token序列 \(f_{exp} \in \mathbb{R}^{S \times D}\)，cross-attention让每个图像token关注表情序列。令人惊讶的发现是：仅用简单的cross-attention就足以建模复杂的面部动画，无需显式变形场或模板mesh。
置信度过滤与自适应高斯数量: 利用DUSt3R的置信度图（阈值 \(\tau=0.5\)）过滤低置信度像素，自然决定高斯数量。蓬松头发的人会生成更多高斯，光头的人更少——类似前景分割的自适应效果。颜色也有skip connection（\(M^{rgb} \leftarrow M^{rgb}+I\)），提供"目标颜色应接近输入像素颜色"的归纳偏置。
不一致输入训练策略: 训练时4张输入图像采样自不同时间步（不同表情），而非传统LRM要求的同表情多视角。DUSt3R在输入不一致时仍能产生合理结果。这一策略不仅允许在更大的单目视频数据集上训练和推理，还使模型对手机拍摄时的意外移动更鲁棒。

损失函数 / 训练策略¶

损失函数：\(\mathcal{L} = 0.8 \mathcal{L}_{l1} + 0.2 \mathcal{L}_{ssim} + 0.01 \mathcal{L}_{lpips}\)，LPIPS在3M步后才引入（避免过早关注高频细节）
训练数据：Ava256数据集，244人训练/12人测试，80个相机视角，每人约5000帧，512×512裁剪
训练配置：Adam, lr=5e-5, batch size=1/GPU × 8×A100, 共3.5M步约4天
监督策略：每个batch=4张随机表情输入 + 8张目标表情监督视角
视角采样：k-farthest viewpoint sampling确保输入视角分布合理且多样

实验关键数据¶

主实验¶

Few-shot(4张输入) 头部头像创建:

数据集	方法	PSNR↑	SSIM↑	LPIPS↓	AKD↓	CSIM↑
Ava256	HeadNeRF	9.1	0.64	0.52	6.9	0.11
Ava256	InvertAvatar	14.2	0.36	0.55	15.8	0.29
Ava256	GPAvatar	19.4	0.69	0.34	5.3	0.31
Ava256	Avat3r	20.7	0.71	0.33	4.8	0.59
NeRSemble	HeadNeRF	9.8	0.69	0.47	4.9	0.22
NeRSemble	GPAvatar†	17.6	0.67	0.40	5.7	0.07
NeRSemble	Avat3r	20.5	0.75	0.33	3.7	0.50

CSIM（身份相似度）从GPAvatar的0.31提升到0.59，说明Avat3r生成的头像在身份保持上有质的飞跃。在未见过的NeRSemble上泛化能力同样强劲。

运行时分析:

方法	创建时间(s)↓	驱动速度(fps)↑
HeadNeRF	6511	1
GPAvatar	0.2	9.5
Avat3r(4-shot)	12.3	7.9
Avat3r(1-shot)	1.15	53

消融实验¶

配置	PSNR↑	AKD↓	说明
w/o DUSt3R	21.1	8.31	几何保真度下降，多视角预测对齐困难
w/o Sapiens	20.9	8.08	清晰度下降，尤其头发区域
w/o 随机时间步训练	21.2	8.86	图像略清晰但对不一致输入脆弱
w/o 位置skip	21.39	-	对齐问题和模糊
w/o 颜色skip	21.76	-	色偏
完整模型	22.05	8.08	所有组件协同最优

关键发现¶

DUSt3R和Sapiens分别贡献几何先验和语义先验，两者互补不可替代
不一致输入训练虽微降图像清晰度（PSNR 22.05→21.2），但对鲁棒性至关重要（AKD 8.08→8.86，即面部关键点距离增大）
增加984个仅中性表情的身份仅增0.08%数据量即可改善跨身份泛化
单图推理（1-shot）速度53fps远快于4-shot的7.9fps，因为高斯数量少3/4

亮点与洞察¶

首个可动画的大型3D重建模型：将LRM范式首次扩展到可驱动的3D头部头像领域
极简的动画机制：仅用cross-attention到表情编码序列就实现了复杂的面部动画，无需模板mesh或显式变形场
不固定高斯数量：每像素预测高斯+置信度过滤，自适应调节不同人的高斯密度
"只在某一轴泛化"的设计哲学值得借鉴：数据在身份轴不足但表情轴充足时，条件化于身份、泛化于表情
强大的泛化能力：在未见过的NeRSemble数据集，甚至能动画化AI生成图像和古代雕像

局限与展望¶

单图推理依赖3D GAN做3D lifting，引入误差累积
需要相机位姿作为输入——错误的位姿估计会导致重建偏差
光照效果被烘焙到重建中，无法重光照，限制虚拟环境中的应用
训练数据仅244人，存在身份过拟合风险
创建时间12.3s主要受限于DUSt3R推理（而非Transformer本身），可通过轻量化DUSt3R加速

评分¶

新颖性: ⭐⭐⭐⭐ 首个将LRM扩展为可动画头部重建模型，设计简洁但是已有组件的巧妙组合
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、丰富消融、单图/多图/应用场景全覆盖
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，动机阐述充分，每个设计选择都有实验支撑
价值: ⭐⭐⭐⭐ 实用价值高（手机拍4张→分钟级可驱动头像），对数字人领域有推动作用