Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation¶

会议: CVPR 2025
arXiv: 2503.18429
代码: https://teller-avatar.github.io/
领域: 视频生成
关键词: 说话人动画, 自回归生成, 实时流式, 动作离散化, 时序精炼

一句话总结¶

提出首个基于自回归 Transformer 的实时流式音频驱动肖像动画框架 Teller，通过 RVQ 将面部运动离散化为 token，结合高效时序模块精炼身体细节，以 25 FPS 实时速度（生成 1s 视频仅需 0.92s vs Hallo 20.93s）达到与扩散模型可比的动画质量。

研究背景与动机¶

领域现状：音频驱动的肖像动画（talking head）近年取得显著进展，扩散模型方法（Hallo、EMO、LOOPY）能生成高质量动画，但推理速度极慢（~20s/s）完全无法满足实时需求。
现有痛点：(a) 扩散模型需多步迭代推理，生成单帧就需多次前向传播；(b) 基于 GAN 的方法（SadTalker、LivePortrait）虽快但运动表现力不足，特别是身体配饰（耳环、项链）和颈部肌肉的自然运动被忽视。
核心矛盾：高质量动画需要捕获丰富的面部和身体运动细节，但计算预算有限（实时需 25+ FPS），扩散模型的质量与自回归模型的速度如何兼得？
本文目标：设计首个实时流式的高质量音频驱动肖像动画框架。
切入角度：将面部运动 latent 离散化为 token 序列，利用自回归 Transformer 的高效 next-token prediction 能力实现音频到运动的实时映射。
核心 idea：两阶段框架——FMLG（RVQ + AR Transformer）生成面部运动 token → ETM（高效时序模块）精炼身体细节。

方法详解¶

整体框架¶

Teller 分两阶段：Stage 1 (FMLG)：LivePortrait 提取隐式关键点运动 latent \(m \in \mathbb{R}^{25 \times 3}\)（21 个关键点 + 头部姿态 + 表情形变），RVQ 将连续 latent 编码为离散 token，AR Transformer 接收 Whisper 编码的音频嵌入，以 next-token prediction 方式生成运动 token 序列。Stage 2 (ETM)：3D U-Net + temporal self-attention 单步精炼，增强颈部肌肉、耳环等配饰的物理一致性。

关键设计¶

Facial Motion Latent Generation (FMLG)
- 功能：将连续面部运动映射为离散 token，实现高效的音频到运动实时生成
- 核心思路：每 4 帧的运动 latent（\(4 \times 25 \times 3\)）被压缩为 32 个离散 token。RVQ 训练目标包括重建损失 \(\mathcal{L}_{recon}\) 和 commitment 损失 \(\mathcal{L}_{commit}\)。AR Transformer 基于 Qwen1.5-4B 架构，以 200ms 音频块为单位处理（对应 Whisper 的 \(10 \times 512\) 嵌入和 32 个运动 token）。创新地使用双 token 预测头——每步同时预测一对 token，推理速度翻倍。两个头的损失用正则项 \(\|\mathcal{L}_{head0} - \mathcal{L}_{head1}\|_2^2\) 平衡学习。
- 设计动机：离散 token 使自回归 next-token prediction 变得可行，避免了扩散模型的多步迭代
Efficient Temporal Module (ETM)
- 功能：单步精炼身体配饰和肌肉的自然运动
- 核心思路：VAE 编码器提取视频帧特征 \(x \in \mathbb{R}^{b \times t \times h \times w \times c}\)，reshape 为 \((b \times h \times w) \times t \times c\) 后在时序维度做 self-attention，通过残差连接融合时序依赖到空间特征。使用 MediaPipe 检测面部关键点定义颈部、耳朵等区域的 bounding box，通过 region-specific mask 的重建损失 \(\mathcal{L}_{ETM}\) 聚焦配饰运动的物理一致性。只需单步前向传播（不像扩散模型需多步），保持实时性。
- 设计动机：LivePortrait 基于隐式关键点驱动，天然缺乏对非面部区域（如耳环、项链）运动的建模
流式推理设计
- 功能：实现端到端的实时流式动画
- 核心思路：音频按 200ms 分块，Whisper 编码 7ms，AR Transformer 生成 32 token（每 16 token 约 6ms），运动解码 10ms；Stage 2 的 VAE 编解码 25ms + ETM 21ms。总计单块约 180ms < 200ms 的音频时长，维持实时。生成 4 帧后插值到 5 帧达到 25 FPS。
- 设计动机：200ms 分块是 Whisper 的自然约束，与人类对音视频同步的感知阈值一致

损失函数 / 训练策略¶

RVQ 损失：\(\mathcal{L}_{vq} = \mathcal{L}_{recon} + \mathcal{L}_{commit}\)
AR 损失：\(\mathcal{L}_{ar} = \sum[\mathcal{L}_{head0} + \mathcal{L}_{head1} + \|\mathcal{L}_{head0} - \mathcal{L}_{head1}\|_2^2]\)
ETM 损失：\(\mathcal{L}_{ETM}\) 带区域 mask 的重建损失
预训练数据：AV Speech (662h) + VFHQ (2h)，SFT 数据 32h

实验关键数据¶

主实验（HDTF 数据集）¶

方法	FID↓	FVD↓	Sync-C↑	Sync-D↓	1s生成时间
SadTalker	22.18	233.67	7.326	7.848	18.89s
EchoMimic	23.05	290.19	6.664	8.839	31.10s
AniPortrait	28.16	235.10	4.547	10.657	29.36s
Hallo	20.64	174.19	7.497	7.741	20.93s
Teller	21.35	173.46	7.696	7.536	0.92s
Real video	-	-	8.094	6.976	-

消融实验¶

配置	FVD↓	Sync-C↑	说明
Full Teller	173.46	7.696	完整模型
w/o ETM	~190	~7.5	配饰运动僵硬
w/o 双头预测	~185	~7.6	推理速度降低 ~40%
单 token 预测	-	-	速度减半但质量接近

关键发现¶

Teller 推理速度是 Hallo 的 22.7 倍（0.92s vs 20.93s），且 FVD、Sync-C/D 指标更优
ETM 对颈部肌肉和配饰运动的改善在定性评估中非常明显（人类评估显著优势）
4 帧压缩到 32 token 是帧数/冗余度的最优 trade-off
RAVDESS 情感数据集上，Teller 在"愤怒"和"厌恶"表情上表现尤为突出

亮点与洞察¶

首个自回归实时 talking head 框架，打破了"高质量=扩散模型=慢"的固有认知。证明了 AR 在音频驱动动画中的可行性
双 token 预测头设计简洁有效——每步预测两个 token 直接将推理速度翻倍，正则项保证两个头学习平衡
ETM 模块解决了隐式关键点驱动方法长期忽视的配饰运动问题，单步精炼保持了实时性

局限与展望¶

基于 LivePortrait 的隐式关键点表示，继承了其对大角度侧脸的限制
200ms 分块引入固定延迟，对超低延迟场景可能不够
ETM 的 region mask 依赖 MediaPipe 关键点检测，面部遮挡时可能失效
仅支持上半身，全身动画是未来方向

评分¶

新颖性: ⭐⭐⭐⭐ AR + RVQ 在 talking head 中首次应用，ETM 设计实用
实验充分度: ⭐⭐⭐⭐ 多数据集对比、human eval、实时性分析全面
写作质量: ⭐⭐⭐ 框架清晰但写作有些粗糙（拼写错误较多）
价值: ⭐⭐⭐⭐⭐ 实时流式 talking head 的里程碑，工业应用价值极高