HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation¶

会议: CVPR 2025
arXiv: 2503.18860
代码: 有（项目页面提供）
领域: 扩散模型 / 图像生成
关键词: 肖像动画, 隐式运动表征, 视频扩散模型, 身份保持, 面部动态

一句话总结¶

HunyuanPortrait提出了首个基于Stable Video Diffusion的隐式条件肖像动画框架，通过强度感知运动编码器和ID感知多尺度适配器实现了对精细面部动态的高保真控制和强身份一致性。

研究背景与动机¶

领域现状：肖像动画领域近年来取得显著进展。GAN时代的方法（如HeadGAN、LivePortrait）通过warping策略实现面部动画但泛化性有限。扩散模型时代的方法（如AniPortrait、EchoMimic）通过微调SD模型并加入运动模块，但仍面临时序平滑性和面部细节控制等问题。

现有痛点：现有方法存在三个关键缺陷：(1) 显式关键点控制的局限——面部关键点因人脸形状差异大而在跨身份驱动时产生偏移，导致身份失真和面部控制不准确；(2) 时序不平滑——基于图像扩散模型+单独训练的运动模块缺乏运动预训练，帧率适应性差；(3) 精细面部动态丢失——显式关键点无法捕捉微表情、眼神方向等细节。

核心矛盾：面部形状的多样性使得显式关键点难以在不同身份间准确传递运动信息——当驱动视频和源图像的面部几何差异大时，关键点对齐策略失效。

本文目标 (1) 如何在不同面部几何间准确传递运动信息？(2) 如何保持高时序一致性？(3) 如何捕捉精细面部动态（微表情、眼神、唇同步）？

切入角度：用隐式运动表征（由预训练编码器从裁剪的面部区域提取的特征向量）替代显式关键点来编码运动信息——隐式表征天然不受面部形状变化影响，且能编码关键点无法捕捉的精细动态。以SVD作为基础模型提供预训练的时序建模能力。

核心 idea：用隐式运动表征+强度感知编码器+运动记忆库实现跨面部几何的精细动态控制，结合ID感知多尺度适配器实现强身份保持。

方法详解¶

整体框架¶

基于Stable Video Diffusion（SVD），输入单张肖像图像作为外观参考和驱动视频。框架包含两个核心组件：外观提取器（处理身份+背景）和运动提取器（处理面部动态）。外观特征和运动特征通过精心设计的attention层注入去噪UNet。同时集成空间条件（DWPose骨骼）保证面部以外区域的稳定性。

关键设计¶

强度感知运动提取器（Intensity-Aware Motion Extractor）:
- 功能：从驱动视频中提取与身份无关的精细运动特征，适应不同运动强度
- 核心思路：首先裁剪面部中心区域（眉毛到嘴底边界），降低背景噪声和面部形状的干扰。将裁剪的像素输入预训练运动编码器（MegaPortraits）获取粗隐式运动特征\(F_m\)。然后计算两个维度的运动强度：表情强度\(I_e\)（关键点相对于均值的标准差，除以面部尺度归一化）和头部姿态强度\(I_h\)（面部中心点的位移标准差）。将连续强度值离散化为64个等级并映射为嵌入向量\(E_s\)，通过AdaLN注入运动特征。最后引入运动记忆库（64个可学习的记忆向量，维度768），通过cross-attention与运动特征交互，补充上下文信息增强时序建模。
- 设计动机：运动强度不同（轻微眨眼 vs 大幅度转头）对生成像素的影响不同，强度感知编码器使模型能适应动态范围。运动记忆库弥补像素级提取的运动特征缺乏跨帧上下文的问题。
ID感知多尺度适配器（IMAdapter）:
- 功能：增强生成视频的身份一致性，保持面部纹理和几何细节
- 核心思路：在DiNOv2骨干网络（patch级图像编码器，固定参数）的基础上，引入IMAdapter增强ID能力。IMAdapter的工作流程：(1) 线性投影降维获得低秩特征\(\hat{f}_a\)；(2) 多尺度卷积（MConv）并行处理并沿通道拼接；(3) 以ArcFace的ID特征\(f_{id}\)为query，多尺度卷积特征为key/value进行cross-attention；(4) 线性投影回原维度并残差连接。训练时ID信息从视频序列的随机帧采样，推理时使用参考图像。
- 设计动机：现有视频扩散模型在身份保持上较弱。DiNOv2提供丰富的视觉细节（服装、背景），ArcFace提供精确的ID特征，通过IMAdapter将两者融合，在保持DiNOv2预训练知识（参数固定）的同时增强ID感知。
训练和推理增强策略:
- 功能：增强模型泛化性和跨身份驱动能力
- 核心思路：(1) 使用AnimeGANv3进行风格转换数据增强，使模型适应不同图像风格；(2) 对运动编码器的面部裁剪输入进行颜色抖动，减少肤色对运动信息的影响；(3) 使用DWPose作为空间条件，训练时随机删除部分骨骼边缘增强鲁棒性；(4) 推理时基于鼻尖位置偏移进行骨骼平移+缩放适配，不使用眼部关键点避免脸型偏移。
- 设计动机：跨身份驱动时骨骼位置和比例差异大，直接使用会引入形变。随机删除边缘的增强策略使模型对检测器精度不敏感。

损失函数 / 训练策略¶

使用标准扩散模型训练目标（噪声预测MSE损失）。AdamW优化器，学习率\(1\times10^{-5}\)，梯度裁剪0.99。128张A100训练3天。推理用DDIM采样器，classifier-free guidance scale=2.0。固定ID encoder、VAE和DiNOv2参数。

实验关键数据¶

主实验¶

方法	LMD↓	FID-VID↓	FVD↓	PSNR↑	SSIM↑	LPIPS↓	ID Similarity↑
LivePortrait	9.14	82.71	483.38	31.41	0.72	0.22	8.71
AniPortrait	6.67	81.90	430.24	30.54	0.67	0.27	7.95
X-Portrait	6.23	82.93	416.41	30.81	0.71	0.19	8.03
HunyuanPortrait	2.02	75.81	333.48	32.98	0.81	0.11	8.87

Cross-reenactment用户评分中，HunyuanPortrait在面部运动(4.55)、视频质量(4.69)、时序平滑(4.61)三个维度全面领先。

消融实验¶

配置	ID Similarity↑	FID-VID↓	FVD↓	LMD↓
Full model	8.87	75.81	333.48	2.02
- Memory Bank	8.75	78.43	361.94	2.78
- IAME	8.63	80.79	385.43	4.01
- ID Features	8.21	75.03	330.12	1.98
- IMAdapter	8.09	77.14	352.67	2.54

关键发现¶

LMD（关键点距离）大幅领先：2.02 vs 次优5.63，说明隐式运动表征在面部动态控制上远超显式关键点方法
去掉IAME影响最大：FVD升高15.6%，说明强度感知编码器对视频质量至关重要
去掉ID Features后LMD反而略降（1.98），但ID相似度降7.4%，说明ID约束虽略微限制运动自由度但对保真度至关重要
运动记忆库改善了面部细节（如眉毛抬起时的额头皱纹更明显）和时序平滑性
SVD预训练的时序建模能力使HunyuanPortrait在帧率变化下仍保持平滑，而基于SD的方法不具备这一优势

亮点与洞察¶

隐式运动表征的范式转变：从显式关键点到隐式特征的转变是关键创新。隐式表征天然绕过了不同面部几何导致的关键点分布差异问题，且能编码微表情、眼神等显式关键点无法捕捉的精细动态。这一范式可迁移到全身动画、手势驱动等领域。
强度感知设计的实用性：将运动强度（表情变形程度+头部运动幅度）离散化并嵌入特征空间，使模型能根据运动幅度自适应调整生成——大运动时关注结构，小运动时关注细节。
基于SVD而非SD的选择：利用SVD预训练的时序先验避免了单独训练运动模块的需求，从根本上解决了帧率适配和时序平滑问题。

局限与展望¶

预训练运动编码器（MegaPortraits）未完全解耦身份和运动信息，仍需增强训练策略弥补
面部裁剪区域固定（眉毛到嘴底），对大幅度头部运动可能截断有效信息
训练资源需求极高（128张A100训练3天），难以复现
空间条件（DWPose骨骼）仍是显式的，全身运动控制仍受检测器精度限制
改进方向：探索完全端到端的运动解耦、支持音频驱动（目前仅支持视频驱动）、减小模型规模和训练成本

评分¶

新颖性: ⭐⭐⭐⭐ 隐式条件+SVD的组合思路清晰有效，各组件设计精巧但非革命性创新
实验充分度: ⭐⭐⭐⭐⭐ 自重建+跨重建+消融+用户研究全面，多数据集评测，与多个SOTA对比
写作质量: ⭐⭐⭐⭐ 方法描述详细，实验分析充分，但论文较长
价值: ⭐⭐⭐⭐⭐ 实际效果显著超越现有方法，工业应用价值极高