Improving Human Image Animation via Semantic Representation Alignment¶

会议: CVPR 2026
arXiv: 2605.10523
代码: 待确认
领域: 3D视觉 / 视频生成 / 人体动画
关键词: 人体图像动画, 表征对齐, 深度蒸馏, ID 一致性, 扩散 Transformer

一句话总结¶

SemanticREPA 把深度、人脸等语义表征从"额外输入条件"改成"训练期监督信号"，通过两个预训练对齐模块在微调扩散 Transformer 时蒸馏 3D 结构与身份先验，从而在长视频、大幅运动下显著缓解肢体扭曲和面部失真。

研究背景与动机¶

领域现状：图像到视频（I2V）生成已经能产出几百帧的高质量视频，人体图像动画作为它在"单人肖像 + 运动"上的特化任务，主流做法是往生成过程里塞各种运动控制条件——稠密/3D 姿态序列、光流、相机轨迹等。

现有痛点：这些方法仍然主要依赖 RGB 像素级监督，缺少显式的代理任务去逼模型学 3D 几何、物理合理性和长程一致性。结果就是在长视频、剧烈运动下反复出现肢体扭曲、模糊甚至消失（尤其是手指等细粒度部位），以及面部随运动逐渐漂移、偏离参考图的身份失真。

核心矛盾：把语义表征（姿态、ID embedding）当作条件喂进去，一方面会牺牲生成灵活性（强行约束输出），另一方面像素监督本身并不强迫网络内部学到几何与时序结构。也就是说，"加条件"治标，模型内部表征其实没变好。

本文目标：在不牺牲灵活性的前提下，让 I2V 骨干网络内部表征真正编码 3D 人体几何（治肢体扭曲）和时序身份一致性（治面部失真）。

切入角度：作者借鉴图像生成里的 REPA——扩散模型内部特征本身就是很强的语义表征，可以用判别式特征（自监督特征）通过知识蒸馏去对齐、优化它们。把这套思路从图像扩展到视频人体动画：用深度估计特征对齐结构表征、用人脸识别特征对齐 ID 表征。

核心 idea：用语义表征做"监督"而不是"条件"——训练两个轻量对齐模块直接从 VAE latent 预测深度/人脸特征，再冻结它们去监督扩散 Transformer 微调，把 3D 运动与身份先验蒸馏进骨干网络。

方法详解¶

整体框架¶

SemanticREPA 要解决的是"如何让模型内部学到 3D 结构和身份一致性，又不靠加条件"。整体分两阶段：第一阶段预训练两个对齐模块——结构对齐模块学会从视频 latent 预测深度 latent，ID 对齐模块学会从视频 latent（拼接深度）预测人脸 embedding；第二阶段冻结这两个模块，用它们对扩散 Transformer 骨干（CogVideoX）的预测结果施加额外的结构损失 \(\mathcal{L}_S\) 和身份损失 \(\mathcal{L}_{ID}\)，连同原扩散损失 \(\mathcal{L}_t\) 一起微调骨干。推理时两个对齐模块完全不参与，只是把先验"印"进了骨干，因此不增加任何推理条件。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["视频 latent z₀<br/>(VAE 压缩)"] --> B["结构对齐模块<br/>latent→深度 latent"]
    A --> C["ID 对齐模块<br/>latent+深度→人脸特征"]
    B -->|深度 latent 拼接| C
    B -->|教师: Video Depth Anything| D["阶段一：表征对齐预训练<br/>(MSE / L1 蒸馏)"]
    C -->|教师: ArcFace| D
    D -->|冻结两模块| E["阶段二：扩散 Transformer 微调<br/>L_t + λ_S·L_S + λ_ID·L_ID"]
    E --> F["输出长视频<br/>结构稳定 + ID 一致"]

关键设计¶

1. 语义表征对齐作监督而非条件：把"加约束"换成"教内部表征"

针对的痛点是：现有方法把姿态/ID 当条件输入，既限制灵活性又没真正改善网络内部几何/时序表征。作者反过来，把语义表征当成训练期的监督目标。具体地，对一个加噪 latent \(\mathbf{z}_t\)，扩散 Transformer 预测噪声 \(\tilde{\boldsymbol{\epsilon}}_\theta(\mathbf{z}_t,t,\mathbf{c})\) 并反推出干净 latent \(\tilde{\mathbf{z}}_0\)，再让冻结的对齐模块从 \(\tilde{\mathbf{z}}_0\) 预测出深度/人脸表征，与真值对齐。最终目标是扩散损失、结构损失、ID 损失的加权和 \(\mathcal{L}_{\text{final}}=\mathcal{L}_t+\lambda_S\mathcal{L}_S+\lambda_{ID}\mathcal{L}_{ID}\)。这样推理时不需要任何额外条件，灵活性不受损，但骨干内部已经被逼着学到 3D 几何和身份先验——这正是"监督优于条件"的关键区别

2. 结构对齐模块：用深度蒸馏纠正肢体扭曲

肢体扭曲的根因是模型对 3D 人体运动建模能力不足。作者把结构表征预测形式化为"以人为中心的视频深度估计"代理任务：用一个层数削减的 CogVideoX Transformer 作结构对齐模块 \(f_{\text{SAM}}\)，从视频 latent 预测深度 latent，\(\tilde{\mathbf{d}}_0(\mathbf{z}_0)=f_{\text{SAM}}(\mathbf{z}_0)\)。教师是 Video Depth Anything，它输出的时序一致深度图被着色成 RGB 后经 VAE 编码成深度 latent 真值 \(\mathbf{d}_0\)，训练时最小化 MSE：\(\mathcal{L}_{\text{MSE}}=\|\mathbf{d}_0-\tilde{\mathbf{d}}_0(\mathbf{z}_0)\|^2\)。深度监督把注意力引向 3D 几何结构而非纹理，从而抑制肢体扭曲。模块有"干净 latent \(\mathbf{z}_0\)"和"带噪 latent \(\mathbf{z}_t\)"两种输入实现，消融发现 \(\mathcal{L}_S(\mathbf{z}_t)\) 因噪声破坏纹理而运动分数略好、但细粒度面部细节丢失导致 ID 与清晰度变差，最终选用 \(\mathcal{L}_S(\mathbf{z}_0)\) 以更可靠地生成稳定结构

3. ID 对齐模块：人脸特征蒸馏 + 深度 latent 当隐式人脸掩码

面部失真源于模型在大幅运动下难以维持细粒度时序一致性。作者用一个 ResNet 卷积网络作 ID 对齐模块 \(f_{\text{ID}}\)，从干净视频 latent 预测人脸 embedding。一个巧点是输入不只用视频 latent，还沿通道维拼接深度 latent：\(\tilde{\mathbf{f}}(\mathbf{z}_0,\mathbf{d}_0)=f_{\text{ID}}(\mathbf{z}_0,\mathbf{d}_0)\)——深度 latent 充当"隐式人脸掩码"，帮模块更准地定位人脸区域。教师是 Arc2Face 版 ArcFace，用 L1 损失对齐归一化人脸 embedding：\(\mathcal{L}_1=\|\mathbf{f}-\tilde{\mathbf{f}}(\mathbf{z}_0,\mathbf{d}_0)\|\)。消融用类内/类间特征距离验证：带深度输入时类间-类内距离差更大（0.1299 vs 0.0417），表明判别性更强，所以采用拼接深度的实现

损失函数 / 训练策略¶

采用两阶段训练而非直接监督 RGB 帧，核心原因是显存：长视频若用 VAE 解码再监督像素，即使 VAE 参数冻结，存梯度的开销也大到不可行。因此第一阶段先用知识蒸馏预训练对齐模块（结构模块用 MSE 对齐深度 latent，ID 模块用 L1 对齐人脸 embedding），让它们学会直接从 VAE latent 抽语义表征；第二阶段冻结两个模块，只微调扩散 Transformer 骨干，总损失 \(\mathcal{L}_{\text{final}}=\mathcal{L}_t+\lambda_S\mathcal{L}_S+\lambda_{ID}\mathcal{L}_{ID}\)。权重需精调：太大会破坏视频生成原有先验，太小则监督无效，最终取 \(\lambda_S=0.01\)、\(\lambda_{ID}=1\)。基座为 CogVideoX 1.0（T5 文本编码器，固定 480×720、49 帧 @8fps）。

实验关键数据¶

主实验¶

测试集为 200 段未见过的大幅运动视频，与各 SOTA I2V 模型对比（CogVideoX 为未微调基座）。

模型	SSIM↑	PSNR↑	LPIPS↓	FID↓	Motion Score↓	Text Score↑	ID Score↑
SEINE	0.3424	29.14	0.5275	556.29	28.08	0.2879	0.1702
SVD	0.3888	29.60	0.4590	467.95	18.58	0.2778	0.3818
CogVideoX（基座）	0.7482	32.40	0.1972	247.37	0.9426	0.2942	0.5087
SemanticREPA	0.7502	32.51	0.2011	213.09	0.4012	0.2956	0.6339

SemanticREPA 在几乎所有指标上取得最优：FID 从基座 247.37 降到 213.09，Motion Score 从 0.9426 降到 0.4012（运动分布最接近真值），ID Score 从 0.5087 升到 0.6339（身份一致性最高，真值为 0.6465）。LPIPS 略逊基座（0.2011 vs 0.1972）是唯一小幅退步。

消融实验¶

基于 Table 2（CogVideoX_F 为仅在本文数据上微调的基座）。

配置	FID↓	Motion↓	ID↑	说明
CogVideoX_F（仅微调）	210.99	0.7481	0.5098	无对齐监督基线
w/ \(\mathcal{L}_S(\mathbf{z}_t)\)	212.97	0.4427	0.5751	噪声 latent：运动好但 ID/清晰度差
w/ \(\mathcal{L}_S(\mathbf{z}_0)\)	212.21	0.5352	0.6118	干净 latent：结构与 ID 更稳，最终选用
w/ \(\mathcal{L}_{ID}\)	219.90	0.5397	0.6223	显著提升 ID Score
w/ \(\mathcal{L}_S+\mathcal{L}_{ID}\)（Full）	213.09	0.4012	0.6339	结构稳定 + ID 一致最佳

ID 对齐模块输入消融（Table 3，类间-类内距离差越大越好）：带深度输入类内 0.0417 / 类间 0.1299（差 0.0882），不带深度类内 0.0487 / 类间 0.1084（差 0.0597），证明深度 latent 作隐式人脸掩码有效。

关键发现¶

结构损失主要压低 Motion Score 与 CPBD（清晰度），ID 损失主要拉高 ID Score，两者作用解耦、互不干扰，叠加后取得最佳综合表现。
结构对齐用干净 latent 还是带噪 latent 是关键权衡：带噪 \(\mathcal{L}_S(\mathbf{z}_t)\) 破坏纹理后监督更偏整体运动、Motion 更好，但丢失面部细节、ID 与清晰度变差；最终选干净 \(\mathcal{L}_S(\mathbf{z}_0)\)。
损失权重敏感：\(\lambda_S\)、\(\lambda_{ID}\) 过大会破坏生成先验、过小无监督效果，需精调到 0.01 / 1。

亮点与洞察¶

"表征即监督"的范式迁移：把图像域的 REPA（用判别特征蒸馏扩散内部表征）扩展到视频人体动画，并精准对应到深度（治肢体）和人脸（治面部）两类问题——是把"加条件"老套路换成"教内部表征"的漂亮示范。
深度 latent 当隐式人脸掩码：在 ID 模块输入里拼接深度 latent，不显式做人脸分割就提升了人脸定位与判别性，是个低成本可复用的小 trick。
两阶段绕开 VAE 解码显存墙：先把"从 latent 抽语义"固化成轻量模块再冻结监督，避免长视频反传时存 VAE 解码梯度——这个工程取舍对所有"想在 latent 空间加像素级语义监督"的长视频任务都有借鉴价值。

局限与展望¶

仅在 CogVideoX 1.0 上验证：方法依附特定基座与固定分辨率（480×720、49 帧），是否能无痛迁移到更大/更新的 DiT 骨干未验证。
测试集偏小且无 FVD：仅 200 段视频、明确放弃 FVD 指标，运动评估靠光流 FID 的 Motion Score 这一代理，统计置信度有限。
LPIPS 略退步：相比基座感知相似度略降，说明结构/ID 监督可能与逐像素保真存在轻微 trade-off。
质性结果放在补充材料：正文缺乏直观的失真对比图，肢体扭曲/面部漂移的改善程度难以从正文判断。⚠️ 部分公式（如带噪深度的 \(\mathcal{L}_{ID}\) 替代式）原文为简洁省略，细节以原文为准。

评分¶

新颖性: ⭐⭐⭐⭐ 把 REPA 范式系统迁移到视频人体动画，深度/人脸双路对齐对应明确，但核心思路承接自图像域 REPA。
实验充分度: ⭐⭐⭐ 主实验+多组消融较完整，但测试集仅 200 段、无 FVD、质性对比放补充，说服力受限。
写作质量: ⭐⭐⭐⭐ 动机—方法—损失链条清晰，公式与符号交代到位。
价值: ⭐⭐⭐⭐ "监督优于条件"思路与两阶段省显存工程取舍对长视频生成有较强可迁移性。