InfinityHuman: Towards Long-Term Audio-Driven Human Animation¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://infinityhuman.github.io/ (项目页)
领域: 视频生成（音频驱动人体动画）
关键词: 音频驱动动画、长视频生成、姿态引导精炼、手部奖励学习、扩散模型

一句话总结¶

InfinityHuman 提出"先低分辨率出动作、再姿态引导精炼"的 coarse-to-fine 框架，用与外观解耦、抗时间退化的姿态序列 + 首帧视觉锚点来对抗长视频中的身份漂移和色偏，并引入手部专属奖励反馈学习修正手部畸变，在 EMTD/HDTF 上把长时音频驱动全身动画的画质、身份保持、手部准确度和唇音同步全面刷到 SOTA。

研究背景与动机¶

领域现状：音频驱动人体动画从单张图+音频生成会说话的人物视频，已从驱动面部/头部进化到全身动画，应用于广告、vlog、影视。主流做法基于潜空间扩散模型，靠重叠运动帧（overlapping motion frames）把短视频自回归地续成长视频。

现有痛点：长视频生成有两大顽疾。一是长时视觉一致性差——随序列变长，自回归续帧的误差不断累积，表现为身份漂移（脸型/服装变样）、全局色偏（色调忽明忽暗）、场景不稳（背景物体漂移或消失），论文 Figure 2 直观展示了这种"渐进式退化"。二是手部运动不自然——以往工作主要盯着面部和粗略躯干，忽略了手这种"幅度小但速度快"的部位，导致大幅手势频繁畸变、手指数目错乱，且手动作与音频不同步。

核心矛盾：自回归续帧机制本身就是误差累积之源——每段都以上一段的输出为条件，外观相关的特征（颜色、身份）会沿时间一路漂移；而手部因为运动剧烈、人眼又对手部畸变极其敏感，成了最难啃的细节。

本文目标：拆成两个子问题——(1) 如何在超长（数十秒）续生成中遏制外观漂移、保住身份和唇同步；(2) 如何专门提升手部的结构正确性和真实感。

切入角度：作者抓住一个关键观察——姿态序列与外观结构上解耦，因此天然抗时间退化：颜色/身份会漂，但骨架关键点在长序列里高度稳定，还保留唇动等细粒度运动。于是用姿态当"可靠的导航信号"，再配首帧当视觉锚点。手部则借鉴偏好微调思路，用奖励模型直接对齐手部真实感。

核心 idea：coarse-to-fine——先生成与音频同步的低分辨率动作，再用姿态引导精炼器把它修成高分辨率长视频；姿态抗退化负责"稳"，首帧锚点负责"像"，手部奖励负责"对"。

方法详解¶

整体框架¶

InfinityHuman 从单张参考图 \(I_{ref}\)、音频 \(c_{audio}\) 和可选文本 \(c_{text}\) 出发，分三段产出高分辨率长时全身说话视频 \(V_{hr}\)。第一段低分辨率音频到视频（LR-A2V）用 DiT + Flow Matching 生成与音频同步的粗动作 \(V_{lr}\)（360P）；第二段姿态引导精炼器（PG-Refiner）以 \(V_{lr}\) 和 \(I_{ref}\) 为条件，借姿态序列和首帧锚点把粗视频修成 720P 高清并纠正累积误差；贯穿训练的第三段手部奖励反馈学习专门修手部畸变。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["参考图 + 音频 + 文本"] --> B["低分辨率音频到视频 LR-A2V<br/>DiT + Flow Matching<br/>多模态条件注意力解耦音频"]
    B --> C["姿态引导精炼器 PG-Refiner<br/>退化LR潜变量+姿态条件<br/>前缀潜变量首帧锚点"]
    C --> D["手部奖励反馈学习<br/>手部评估器打分微调"]
    D --> E["720P 长时全身视频 Vhr"]

关键设计¶

1. 低分辨率音频到视频 + 多模态条件注意力：先把动作和唇同步做对，再谈高清

coarse 阶段不追求画质，只求动作和音频对齐。骨干是 DiT \(f_\theta\)，用 Flow Matching 训练：对每帧潜变量 \(z^{lr}_i\) 按 \(z^{lr}_{i,t}=(1-t)\epsilon_i + t\,z^{lr}_{i,1}\) 加噪，让模型预测速度场 \(v_{i,t}=z^{lr}_{i,1}-\epsilon_i\)，目标即最小化全帧速度预测误差（式 3）。关键设计是多模态条件注意力——作者发现把音频和文本/图像混在一起喂注意力会互相干扰，于是给音频单开一条 cross-attention 分支：\(CA^{mm}(x^{lr},c_{text},c_{audio})=CA(x^{lr},c_{text})+CA(x^{lr},c_{audio})\)。解耦后音频线索能更精准地驱动嘴型和身体动态，唇同步质量明显提升。

2. 姿态引导精炼器：用抗退化的姿态 + 首帧锚点修掉长视频漂移

这是对抗身份漂移的核心。痛点是低分辨率长视频 \(V_{lr}\) 时间上累积误差、外观偏离参考图。PG-Refiner 用三个条件协同解决：(a) 退化 LR 潜变量条件——故意用低通滤波 + 加噪模拟时间退化 \(z_{deglr}=\text{LPF}(z^{lr})+\alpha_{deg}\cdot\epsilon\)，逼模型学会恢复细节、纠正结构错误；(b) 姿态引导条件——从 \(V_{lr}\) 抽人体+背景关键点编成 8 通道像素级姿态张量 \(P\)（前 7 通道编人体、最后 1 通道编最多 20 个背景关键点），patch 化后投影并与高分潜变量相加 \(z'_{hr}=z_{hr}+\text{Proj}(P')\)；姿态结构性强、保留唇动等细粒度运动、且长序列里几乎不累积误差，比扩散超分中直接用音频更稳，能减少手指重叠、运动畸变；(c) 前缀潜变量首帧锚点——把参考图编码成前缀潜变量 \(z^{hr}_0=E(I_{ref})\)，前向扩散时只给未来帧加噪（式 6：\(0\le i\le m\) 保持无噪、\(m<i\le f\) 才加噪），无噪前缀帧不计入损失（mask \(w_i\)，式 7-8），靠 DiT 的 3D 全局注意力直接从前缀帧抽身份特征。这套"prefix-latent 参考策略"不需要额外的结构对齐参考网络，且推理时新 chunk 的前 \(m\) 个潜变量取自上一 chunk 的后 \(m\) 个，保证段间动作平滑衔接。

3. 手部专属奖励反馈学习：用偏好微调直击手部畸变

人眼对手部畸变（手指数目错、关节不自然、纹理断裂）极其敏感，但以往模型几乎不专门建模手。作者先人工构建 1 万对手部结构配对数据（10 名专业标注者从 4 万候选图里标注筛选），在开源 MPS 模型上微调出一个手部专属评估器 \(r_{hand}\)。训练时把低分潜变量序列解码成 RGB 帧、随机抽一帧 \(X^{lr}_i\) 送评估器打分，目标为 \(L_{hand}(\theta)=\mathbb{E}\,[\,T - r_{hand}(X^{lr}_i, c)\,]\)（式 9，\(T\) 为手部质量阈值）。这是一种无需额外标注的细粒度偏好微调——直接用评估器奖励把扩散模型往"手更真"的方向推，显著减少手指畸变、提升手势的时间一致性。

损失函数 / 训练策略¶

LR-A2V 和 PG-Refiner 都从预训练 Goku-I2V 起步。数据上用 SceneDetect 切段、YOLO 跟单人做时空裁剪，按画质/美学/运动幅度/手清晰度等过滤得 7700 小时单人片段训精炼器，再用 SyncNet 筛唇音同步得 1800 小时（每段 4 秒）训 LR-A2V。训练用多条件 dropout（文本/音频各 10%、参考图/首帧各 20%）增鲁棒；PG-Refiner 借 HumanDiT 多分辨率训练策略、姿态与 LR 潜变量各 20% dropout。两模型均用 128 张 NVIDIA GPU、学习率 5e-5。推理时 LR-A2V 用音频/文本 CFG 6.5、30 步；PG-Refiner 用姿态 CFG 1.5、20 步，并把 PG-Refiner 蒸馏成 1 步模型以加速。

实验关键数据¶

主实验（EMTD 全身 + HDTF 说话头，对比 SOTA）¶

EMTD 含 110 段 720P 上半身+手视频（最长 74 秒）；HDTF 取 100 段 512×512 说话脸。* 标记仅支持说话头的方法。

数据集/方法	FID↓	FVD↓	IQA↑	SYNC-C↑	FSIM↑	HKC↑
HDTF · Hallo3	74.10	250.12	1.95	7.31	0.91	-
HDTF · MultiTalk	85.01	404.45	1.78	8.76	0.84	-
HDTF · Ours	69.28	239.05	2.11	8.59	0.89	-
EMTD · Hallo3	104.51	1256.10	2.31	4.26	0.73	0.77
EMTD · OmniAvatar	82.54	1104.99	2.16	5.40	0.72	0.86
EMTD · Ours	60.71	979.88	2.48	6.56	0.84	0.90

FSIM=FaceSIM 身份一致性；HKC（Hand Keypoint Confidence）=手部关键点平均置信度，越高表示手结构越可信；HKV（Hand Keypoint Variance）=手部关键点方差，反映手部运动幅度/抖动（非越大越好，需结合 HKC 看）。全身场景下 InfinityHuman 的 FaceSIM 0.84（vs Hallo3 0.73）、HKC 0.90 均为最佳。

消融实验（验证各模块）¶

配置	FID↓	FVD↓	FSIM↑	HKC↑	说明
w/o refiner	109.54	876.49	0.79	0.85	去掉姿态引导精炼器，FID/FSIM 大幅恶化
w/o lr cond	91.92	1001.00	0.86	0.85	去掉退化 LR 潜变量条件，FVD 升高
w/o pose cond	156.74	1163.75	0.83	0.83	去掉姿态条件，FID 飙到 156.74（掉点最狠）
w/o hand refl	86.32	844.57	0.86	0.85	去掉手部奖励，HKC 降到 0.85
ours（完整）	91.74	758.98	0.88	0.87	完整模型 FVD/FSIM/HKC 最佳

关键发现¶

姿态条件贡献最大：去掉 pose cond 后 FID 从 91.74 暴涨到 156.74、FVD 也最差，印证"姿态是抗退化导航信号"这一核心假设。
精炼器决定身份与画质：去掉 refiner 后 FSIM 从 0.88 跌到 0.79，长时身份一致性显著恶化。
手部奖励专修手：去掉 hand refl 后 HKC 由 0.87 降到 0.85，手部置信度下滑，说明该模块确实在改善手结构。⚠️ 各消融项对应指标存在轻微非单调（如 w/o lr cond 的 FID 反低于完整模型），作者以综合指标论证有效性。

亮点与洞察¶

"姿态抗退化"这个观察是全文支点：把"颜色/身份会漂、骨架不会漂"这一物理直觉转成可用的条件信号，比硬塞更多参考网络优雅，可迁移到任何长视频续生成任务。
prefix-latent 首帧锚点+只给未来帧加噪：无噪前缀帧靠 DiT 的 3D 全局注意力直接供身份特征、还不计入损失，是个干净的长序列身份保持技巧，省掉了独立的参考网络分支。
退化模拟训练（LPF+加噪）很巧：主动制造"时间退化"让精炼器学纠错，等于把推理时会遇到的退化提前喂进训练，思路可复用到其他"修复累积误差"的场景。
手部当成独立奖励对象：把人眼最敏感的手单拎出来做偏好微调、无需额外标注，是对"全身一把抓"范式的有效补丁。

局限与展望¶

数据与算力门槛极高：7700 小时精炼数据 + 1800 小时 A2V 数据 + 1 万手部标注（从 4 万候选筛），128 张 GPU 训练，复现成本巨大。
手部奖励依赖单帧随机采样：\(L_{hand}\) 每次只解码一帧打分，可能漏掉跨帧的手部时序不连贯；视频级手部奖励或是改进方向。
姿态质量决定上限：方法重度依赖姿态估计器（Sapiens）抽取的关键点，遮挡/极端姿态下若姿态估计失败，精炼器的"导航"也会失准。
仍是分段自回归：虽缓解但未根除误差累积，超长序列（远超 74 秒）下是否仍稳，论文未充分验证。⚠️ HKV 作为手部度量解释性偏弱，论文未给阈值/方向性结论。

评分¶

新颖性: ⭐⭐⭐⭐ "姿态抗退化"+前缀潜变量锚点+手部奖励三招组合解决长时漂移，思路新但单招多有渊源。
实验充分度: ⭐⭐⭐⭐⭐ EMTD/HDTF 双数据集、对比 8 个 SOTA、完整消融 + 用户测试，覆盖画质/唇同步/身份/手部多维度。
写作质量: ⭐⭐⭐⭐ pipeline 与公式清晰，但部分消融指标非单调、HKV 解释偏弱。
价值: ⭐⭐⭐⭐ 长时音频驱动全身动画的强基线，对数字人/虚拟主播落地有实用价值；门槛高限制了可复现性。