跳转至

InfinityHuman: Towards Long-Term Audio-Driven Human Animation

会议: CVPR 2026
论文: CVF Open Access
代码: https://infinityhuman.github.io/ (项目页)
领域: 视频生成(音频驱动人体动画)
关键词: 音频驱动动画、长视频生成、姿态引导精炼、手部奖励学习、扩散模型

一句话总结

InfinityHuman 提出"先低分辨率出动作、再姿态引导精炼"的 coarse-to-fine 框架,用与外观解耦、抗时间退化的姿态序列 + 首帧视觉锚点来对抗长视频中的身份漂移和色偏,并引入手部专属奖励反馈学习修正手部畸变,在 EMTD/HDTF 上把长时音频驱动全身动画的画质、身份保持、手部准确度和唇音同步全面刷到 SOTA。

研究背景与动机

领域现状:音频驱动人体动画从单张图+音频生成会说话的人物视频,已从驱动面部/头部进化到全身动画,应用于广告、vlog、影视。主流做法基于潜空间扩散模型,靠重叠运动帧(overlapping motion frames)把短视频自回归地续成长视频。

现有痛点:长视频生成有两大顽疾。一是长时视觉一致性差——随序列变长,自回归续帧的误差不断累积,表现为身份漂移(脸型/服装变样)、全局色偏(色调忽明忽暗)、场景不稳(背景物体漂移或消失),论文 Figure 2 直观展示了这种"渐进式退化"。二是手部运动不自然——以往工作主要盯着面部和粗略躯干,忽略了手这种"幅度小但速度快"的部位,导致大幅手势频繁畸变、手指数目错乱,且手动作与音频不同步。

核心矛盾:自回归续帧机制本身就是误差累积之源——每段都以上一段的输出为条件,外观相关的特征(颜色、身份)会沿时间一路漂移;而手部因为运动剧烈、人眼又对手部畸变极其敏感,成了最难啃的细节。

本文目标:拆成两个子问题——(1) 如何在超长(数十秒)续生成中遏制外观漂移、保住身份和唇同步;(2) 如何专门提升手部的结构正确性和真实感。

切入角度:作者抓住一个关键观察——姿态序列与外观结构上解耦,因此天然抗时间退化:颜色/身份会漂,但骨架关键点在长序列里高度稳定,还保留唇动等细粒度运动。于是用姿态当"可靠的导航信号",再配首帧当视觉锚点。手部则借鉴偏好微调思路,用奖励模型直接对齐手部真实感。

核心 idea:coarse-to-fine——先生成与音频同步的低分辨率动作,再用姿态引导精炼器把它修成高分辨率长视频;姿态抗退化负责"稳",首帧锚点负责"像",手部奖励负责"对"。

方法详解

整体框架

InfinityHuman 从单张参考图 \(I_{ref}\)、音频 \(c_{audio}\) 和可选文本 \(c_{text}\) 出发,分三段产出高分辨率长时全身说话视频 \(V_{hr}\)。第一段低分辨率音频到视频(LR-A2V)用 DiT + Flow Matching 生成与音频同步的粗动作 \(V_{lr}\)(360P);第二段姿态引导精炼器(PG-Refiner)\(V_{lr}\)\(I_{ref}\) 为条件,借姿态序列和首帧锚点把粗视频修成 720P 高清并纠正累积误差;贯穿训练的第三段手部奖励反馈学习专门修手部畸变。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["参考图 + 音频 + 文本"] --> B["低分辨率音频到视频 LR-A2V<br/>DiT + Flow Matching<br/>多模态条件注意力解耦音频"]
    B --> C["姿态引导精炼器 PG-Refiner<br/>退化LR潜变量+姿态条件<br/>前缀潜变量首帧锚点"]
    C --> D["手部奖励反馈学习<br/>手部评估器打分微调"]
    D --> E["720P 长时全身视频 Vhr"]

关键设计

1. 低分辨率音频到视频 + 多模态条件注意力:先把动作和唇同步做对,再谈高清

coarse 阶段不追求画质,只求动作和音频对齐。骨干是 DiT \(f_\theta\),用 Flow Matching 训练:对每帧潜变量 \(z^{lr}_i\)\(z^{lr}_{i,t}=(1-t)\epsilon_i + t\,z^{lr}_{i,1}\) 加噪,让模型预测速度场 \(v_{i,t}=z^{lr}_{i,1}-\epsilon_i\),目标即最小化全帧速度预测误差(式 3)。关键设计是多模态条件注意力——作者发现把音频和文本/图像混在一起喂注意力会互相干扰,于是给音频单开一条 cross-attention 分支\(CA^{mm}(x^{lr},c_{text},c_{audio})=CA(x^{lr},c_{text})+CA(x^{lr},c_{audio})\)。解耦后音频线索能更精准地驱动嘴型和身体动态,唇同步质量明显提升。

2. 姿态引导精炼器:用抗退化的姿态 + 首帧锚点修掉长视频漂移

这是对抗身份漂移的核心。痛点是低分辨率长视频 \(V_{lr}\) 时间上累积误差、外观偏离参考图。PG-Refiner 用三个条件协同解决:(a) 退化 LR 潜变量条件——故意用低通滤波 + 加噪模拟时间退化 \(z_{deglr}=\text{LPF}(z^{lr})+\alpha_{deg}\cdot\epsilon\),逼模型学会恢复细节、纠正结构错误;(b) 姿态引导条件——从 \(V_{lr}\) 抽人体+背景关键点编成 8 通道像素级姿态张量 \(P\)(前 7 通道编人体、最后 1 通道编最多 20 个背景关键点),patch 化后投影并与高分潜变量相加 \(z'_{hr}=z_{hr}+\text{Proj}(P')\);姿态结构性强、保留唇动等细粒度运动、且长序列里几乎不累积误差,比扩散超分中直接用音频更稳,能减少手指重叠、运动畸变;(c) 前缀潜变量首帧锚点——把参考图编码成前缀潜变量 \(z^{hr}_0=E(I_{ref})\),前向扩散时只给未来帧加噪(式 6:\(0\le i\le m\) 保持无噪、\(m<i\le f\) 才加噪),无噪前缀帧不计入损失(mask \(w_i\),式 7-8),靠 DiT 的 3D 全局注意力直接从前缀帧抽身份特征。这套"prefix-latent 参考策略"不需要额外的结构对齐参考网络,且推理时新 chunk 的前 \(m\) 个潜变量取自上一 chunk 的后 \(m\) 个,保证段间动作平滑衔接。

3. 手部专属奖励反馈学习:用偏好微调直击手部畸变

人眼对手部畸变(手指数目错、关节不自然、纹理断裂)极其敏感,但以往模型几乎不专门建模手。作者先人工构建 1 万对手部结构配对数据(10 名专业标注者从 4 万候选图里标注筛选),在开源 MPS 模型上微调出一个手部专属评估器 \(r_{hand}\)。训练时把低分潜变量序列解码成 RGB 帧、随机抽一帧 \(X^{lr}_i\) 送评估器打分,目标为 \(L_{hand}(\theta)=\mathbb{E}\,[\,T - r_{hand}(X^{lr}_i, c)\,]\)(式 9,\(T\) 为手部质量阈值)。这是一种无需额外标注的细粒度偏好微调——直接用评估器奖励把扩散模型往"手更真"的方向推,显著减少手指畸变、提升手势的时间一致性。

损失函数 / 训练策略

LR-A2V 和 PG-Refiner 都从预训练 Goku-I2V 起步。数据上用 SceneDetect 切段、YOLO 跟单人做时空裁剪,按画质/美学/运动幅度/手清晰度等过滤得 7700 小时单人片段训精炼器,再用 SyncNet 筛唇音同步得 1800 小时(每段 4 秒)训 LR-A2V。训练用多条件 dropout(文本/音频各 10%、参考图/首帧各 20%)增鲁棒;PG-Refiner 借 HumanDiT 多分辨率训练策略、姿态与 LR 潜变量各 20% dropout。两模型均用 128 张 NVIDIA GPU、学习率 5e-5。推理时 LR-A2V 用音频/文本 CFG 6.5、30 步;PG-Refiner 用姿态 CFG 1.5、20 步,并把 PG-Refiner 蒸馏成 1 步模型以加速。

实验关键数据

主实验(EMTD 全身 + HDTF 说话头,对比 SOTA)

EMTD 含 110 段 720P 上半身+手视频(最长 74 秒);HDTF 取 100 段 512×512 说话脸。* 标记仅支持说话头的方法。

数据集/方法 FID↓ FVD↓ IQA↑ SYNC-C↑ FSIM↑ HKC↑
HDTF · Hallo3 74.10 250.12 1.95 7.31 0.91 -
HDTF · MultiTalk 85.01 404.45 1.78 8.76 0.84 -
HDTF · Ours 69.28 239.05 2.11 8.59 0.89 -
EMTD · Hallo3 104.51 1256.10 2.31 4.26 0.73 0.77
EMTD · OmniAvatar 82.54 1104.99 2.16 5.40 0.72 0.86
EMTD · Ours 60.71 979.88 2.48 6.56 0.84 0.90

FSIM=FaceSIM 身份一致性;HKC(Hand Keypoint Confidence)=手部关键点平均置信度,越高表示手结构越可信;HKV(Hand Keypoint Variance)=手部关键点方差,反映手部运动幅度/抖动(非越大越好,需结合 HKC 看)。全身场景下 InfinityHuman 的 FaceSIM 0.84(vs Hallo3 0.73)、HKC 0.90 均为最佳。

消融实验(验证各模块)

配置 FID↓ FVD↓ FSIM↑ HKC↑ 说明
w/o refiner 109.54 876.49 0.79 0.85 去掉姿态引导精炼器,FID/FSIM 大幅恶化
w/o lr cond 91.92 1001.00 0.86 0.85 去掉退化 LR 潜变量条件,FVD 升高
w/o pose cond 156.74 1163.75 0.83 0.83 去掉姿态条件,FID 飙到 156.74(掉点最狠)
w/o hand refl 86.32 844.57 0.86 0.85 去掉手部奖励,HKC 降到 0.85
ours(完整) 91.74 758.98 0.88 0.87 完整模型 FVD/FSIM/HKC 最佳

关键发现

  • 姿态条件贡献最大:去掉 pose cond 后 FID 从 91.74 暴涨到 156.74、FVD 也最差,印证"姿态是抗退化导航信号"这一核心假设。
  • 精炼器决定身份与画质:去掉 refiner 后 FSIM 从 0.88 跌到 0.79,长时身份一致性显著恶化。
  • 手部奖励专修手:去掉 hand refl 后 HKC 由 0.87 降到 0.85,手部置信度下滑,说明该模块确实在改善手结构。⚠️ 各消融项对应指标存在轻微非单调(如 w/o lr cond 的 FID 反低于完整模型),作者以综合指标论证有效性。

亮点与洞察

  • "姿态抗退化"这个观察是全文支点:把"颜色/身份会漂、骨架不会漂"这一物理直觉转成可用的条件信号,比硬塞更多参考网络优雅,可迁移到任何长视频续生成任务。
  • prefix-latent 首帧锚点+只给未来帧加噪:无噪前缀帧靠 DiT 的 3D 全局注意力直接供身份特征、还不计入损失,是个干净的长序列身份保持技巧,省掉了独立的参考网络分支。
  • 退化模拟训练(LPF+加噪)很巧:主动制造"时间退化"让精炼器学纠错,等于把推理时会遇到的退化提前喂进训练,思路可复用到其他"修复累积误差"的场景。
  • 手部当成独立奖励对象:把人眼最敏感的手单拎出来做偏好微调、无需额外标注,是对"全身一把抓"范式的有效补丁。

局限与展望

  • 数据与算力门槛极高:7700 小时精炼数据 + 1800 小时 A2V 数据 + 1 万手部标注(从 4 万候选筛),128 张 GPU 训练,复现成本巨大。
  • 手部奖励依赖单帧随机采样\(L_{hand}\) 每次只解码一帧打分,可能漏掉跨帧的手部时序不连贯;视频级手部奖励或是改进方向。
  • 姿态质量决定上限:方法重度依赖姿态估计器(Sapiens)抽取的关键点,遮挡/极端姿态下若姿态估计失败,精炼器的"导航"也会失准。
  • 仍是分段自回归:虽缓解但未根除误差累积,超长序列(远超 74 秒)下是否仍稳,论文未充分验证。⚠️ HKV 作为手部度量解释性偏弱,论文未给阈值/方向性结论。

相关工作与启发

  • vs 重叠运动帧续帧法(MultiTalk / OmniAvatar / Hallo3):他们直接以上段运动帧为条件自回归续帧、误差累积导致身份漂移;本文用 coarse-to-fine + 姿态引导精炼,把"续得长"和"修得稳"解耦,FID/FSIM 全面更优。
  • vs 训练无关长视频扩展(Gen-L-Video / FreeNoise):滑窗注意力/噪声重排虽高效但时序建模弱、过渡不连贯;本文用专门训练的精炼器换取更强一致性。
  • vs 说话头/面部驱动法(SadTalker / V-Express / EchoMimic):它们只驱动面部、不做全身和手;InfinityHuman 覆盖全身长时动画且专攻手部真实感,应用面更广。

评分

  • 新颖性: ⭐⭐⭐⭐ "姿态抗退化"+前缀潜变量锚点+手部奖励三招组合解决长时漂移,思路新但单招多有渊源。
  • 实验充分度: ⭐⭐⭐⭐⭐ EMTD/HDTF 双数据集、对比 8 个 SOTA、完整消融 + 用户测试,覆盖画质/唇同步/身份/手部多维度。
  • 写作质量: ⭐⭐⭐⭐ pipeline 与公式清晰,但部分消融指标非单调、HKV 解释偏弱。
  • 价值: ⭐⭐⭐⭐ 长时音频驱动全身动画的强基线,对数字人/虚拟主播落地有实用价值;门槛高限制了可复现性。