EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=eflUxFmIhZ
代码: 项目主页
领域: 视频生成 / 人体动作生成
关键词: 人体视频生成, SMPL 运动参数, 双模态扩散 Transformer, MVS-RoPE, 联合分布建模

一句话总结¶

EchoMotion 不再把人体视频生成当作纯像素回归问题，而是用双分支 DiT 显式联合建模「视频外观 + SMPL 参数化运动」的联合分布 $p(x, m \mid y)$，配合时序同步的 MVS-RoPE 和两阶段训练，把复杂人体动作视频的解剖合理性和运动连贯性显著提上去，并顺带获得视频↔运动双向跨模态生成能力。

研究背景与动机¶

领域现状：基于 DiT 的视频扩散模型（Wan、CogVideoX、HunyuanVideo 等）在视觉保真度和时序一致性上已经做得很好，但一碰到复杂人体动作（体操、滑板、格斗）就频繁翻车，生成的视频出现关节扭曲、肢体缠绕、解剖结构错乱。

现有痛点：作者把根因归结到训练目标本身——纯像素回归损失被静态外观和背景细节主导，对时序运动学几乎不敏感。人体自由度极高，哪怕细微的运动学误差在视觉上都会显得极不自然，而像素损失根本逼不出模型去学习底层的关节运动规律。一类补救方案是用 2D 关键点或 3D 姿态作为显式条件来引导（DisCo、Animate Anyone、Champ、RealisDance），但这有两个硬伤：一是依赖推理时往往拿不到的控制信号，二是即便用 3D 姿态也要投影回 2D 图像平面去对齐视频帧，投影过程把关键的 3D 几何信息丢掉了。

核心矛盾：模型既要学好外观（像素层面），又要学好运动学（结构层面），但纯像素目标天然偏向前者；而外挂式的姿态条件方案又把 3D 结构降维丢失，且只能做条件生成、做不了联合生成。

本文目标：让模型原生地、显式地把人体运动当作和视频并列的一个模态来联合建模，从而既提升人体视频质量，又自然支持视频↔运动的双向跨模态生成。

核心 idea：【联合分布建模】 不再建模 $p(x \mid y)$ 而是建模 $p(x, m \mid y)$，其中 $m$ 是 token 高效且保留原生 3D 结构的 SMPL 参数化运动表示；【双模态 DiT】 用双分支 DiT 把视频 token 和运动 token 拼在一起做联合自注意力；【时序同步定位】 用 MVS-RoPE 给两个模态一套同步的 3D 坐标系，强制时间对齐。

方法详解¶

整体框架¶

EchoMotion 以 Wan 为骨干，把一段文本 prompt 同时生成视频和与之时序对齐的 SMPL 运动序列。流程是：先把人体运动参数化成紧凑的运动 token，与视频 token 沿序列维拼接成统一的多模态上下文序列；序列送入一串双模态 DiT block，每个 block 内用 MVS-RoPE 注入精确位置，在联合自注意力里完成模态内与跨模态的信息交换，之后各模态分流去各自的 cross-attention（与文本交互）和 FFN；最后由各自的解码器还原视频和运动。训练上用两阶段策略——先单独把运动分支练到收敛，再在视频-运动配对数据上做多任务训练，从而同时掌握联合生成、运动→视频、视频→运动三种范式。

flowchart TD
    T[文本 prompt y] --> DiT
    V[视频帧] --> VE[Video Encoder] --> VT[视频 tokens]
    M[人体 SMPL 参数] --> ME[Motion Encoder] --> MT[运动 tokens]
    VT --> C[沿序列维 Concat]
    MT --> C
    C --> DiT[双模态 DiT block ×N]
    subgraph DiT
        RoPE[MVS-RoPE 同步定位] --> SA[联合自注意力]
        SA --> SP[按模态分流]
        SP --> CA1[Vision: Cross-Attn + FFN]
        SP --> CA2[Motion: Cross-Attn + FFN]
    end
    CA1 --> VD[Video Decoder] --> OUT_V[视频输出]
    CA2 --> MD[Motion Decoder] --> OUT_M[SMPL 运动输出]

关键设计¶

1. 参数化人体运动表示：用 SMPL 把运动做成 token 高效又保留 3D 结构的序列。 给定一段人体运动视频，用 SMPL 模型逐帧提取低维参数：形状 $\beta \in \mathbb{R}^{10}$、姿态 $\theta \in \mathbb{R}^{24\times 6}$、全局朝向 $\gamma \in \mathbb{R}^{6}$、根关节位置 $v \in \mathbb{R}^{3}$，并仿照 DART 额外用 3D 关节位置 $\eta \in \mathbb{R}^{24\times 3}$ 表示每个关节。作者把这些参数按语义分成三组——位置组 $\{v, \eta\}$、6D 旋转组 $\{\theta, \gamma\}$、形状组 $\beta$，分别用三个独立 MLP 投到 Transformer 隐维，每帧产生 51 个运动 token；另三个 MLP 做逆映射回参数空间用于重建。关键点在于：与视频 token 通常在时间维做下采样不同，运动 token 刻意保留完整时序结构，从而以极小的算力开销留住快速变化的运动细节。相比 RealisDance 等把多种姿态渲染图沿通道拼接的做法，这种参数化表示既更 token 高效，又不丢 3D 几何信息，更利于模型学习运动学规律。

2. 双模态 DiT block：靠序列级拼接 + 联合自注意力让两模态真正互通。 block 先用两套模态专属的可学习投影把视频和运动嵌入分别映射，再沿序列维拼成统一的 Q/K/V： $$Q_{mm}, K_{mm}, V_{mm} = [Q_v; Q_m],\ [K_v; K_m],\ [V_v; V_m]$$ 随后一层联合自注意力让视频与运动 token 在同一注意力里捕捉模态内与跨模态依赖；注意力之后各模态特征解耦，分别走各自的 cross-attention（注入文本）和 FFN。这与只对视频做去噪的原始 MMDiT 的根本区别在于：EchoMotion 把参数化运动也当成要显式去噪的对象一起建模，正是这种显式运动建模带来了运动伪影的大幅减少。

3. MVS-RoPE：给视频和运动一套同步坐标系，把 4:1 时序倍率写进位置编码。 难点在于视频 VAE 做了 4 倍时序压缩，导致运动序列时间长度是视频的 4 倍，标准 M-RoPE 无法表达这种时序对齐。MVS-RoPE 的做法是空间上「对角扩展」、时间上「按比例缩放」：视频 token 占据基础 $(h, w)$ 空间区域并保留预训练时完全相同的 3D RoPE，运动 token 则把空间索引偏移到 $(H+i, W+i)$ 的对角线区域以避免位置碰撞，时间上运动 token 用缩放索引 $t/4$ 与视频的 $t$ 对齐： $$\hat{f}^{v}_{t,h,w} = R(t, h, w)\cdot f^{v}_{t,h,w}, \qquad \hat{f}^{m}_{t,i} = R\!\left(\tfrac{1}{4}t,\ H+i,\ W+i\right)\cdot f^{m}_{t,i}$$ 这一个设计同时满足三件事：保住预训练知识（视频侧 RoPE 不变）、强制正确时序对齐（$1/4$ 缩放显式编码多速率关系）、保证模态可区分（对角扩展防止位置碰撞）。消融里的注意力可视化证明，有 MVS-RoPE 时视频↔运动注意力会自发形成清晰的非对称对角结构，去掉时序同步后注意力则完全散乱。

4. 两阶段训练 + In-Context CFG：让运动分支先独立收敛，再多任务对齐三种范式。 Phase 1 冻结视频分支、只用 motion-only 数据（HuMoVe + HumanML3D）把运动分支练到收敛，避免一开始就被算力昂贵的视频分支主导；Phase 2 解冻两分支，在视频-运动配对数据上随机采样三种范式同时训练——联合生成、运动→视频、视频→运动。当某模态作为条件输入时，它的特征在前向扩散里不加噪（noise=0），并由一个轻量 MLP 把任务嵌入投到隐空间作为 task hint 加到 latent 上引导条件预测。配套的 ICCFG 对三种范式用各自的条件丢弃策略，推理时按模式组合多项引导，例如运动→视频模式下同时用文本和运动两路引导： $$o^{v}_{t} = u_\theta(x_t, \varnothing, \varnothing) + \omega_1\big(u_\theta(x_t, m_t, y) - u_\theta(x_t, m_t, \varnothing)\big) + \omega_2\big(u_\theta(x_t, m_t, \varnothing) - u_\theta(x_t, \varnothing, \varnothing)\big)$$ 这样一套模型在推理时既能纯文本联合生成视频+运动，又能做双向跨模态条件生成。

实验关键数据¶

主实验表格¶

在 VBench/VBench-2.0 自动指标 + 人工评测下，对比 1.3B 和 5B 两个规模的视频-only 基线（数值越大越好）：

模型	Human Anatomy	Motion Smoothness	Dynamic Degree	Aesthetic	Video Quality	Prompt Following	Posture Plausibility
CogVideoX-2B	61.7	97.0	49.4	51.6	55.3	52.1	53.6
Wan-1.3B	78.1	98.2	60.6	60.1	68.2	70.3	64.0
Video Tuning (Wan-1.3B)	77.4	98.3	61.6	59.7	69.3	73.2	65.5
EchoMotion (Wan-1.3B)	79.6	98.9	61.9	60.0	71.3	73.2	66.1
CogVideoX1.5-5B	65.3	98.5	54.4	53.2	62.5	60.4	59.4
Wan-5B	83.0	98.9	62.2	58.3	72.8	78.9	68.9
Video Tuning (Wan-5B)	83.1	98.7	63.1	57.9	72.3	79.6	70.2
EchoMotion (Wan-5B)	85.1	99.3	64.0	58.3	81.0	81.5	81.6

前三列（Anatomy / Smoothness 等）为自动指标，后四列为人工评测。

消融实验表格¶

消融项	结论
联合建模 vs 视频-only 微调	仅在数据集视频上微调（Video Tuning）只带来边际提升、抬不动运动学指标；EchoMotion 在 Human Anatomy 尤其 Posture Plausibility（5B 上 70.2→81.6）大幅领先，证明关键是「联合建模外观+运动学」而非单纯加人体视频数据
MVS-RoPE（时序同步）	带 MVS-RoPE 时注意力图呈现清晰的 4:1 非对称对角结构（视频→运动浅对角、运动→视频陡对角）；去掉时序同步后注意力散乱、对角结构消失，模型无法同步两模态

关键发现¶

在 5B 规模上，EchoMotion 把 Posture Plausibility 从基线的 68.9 推到 81.6、Video Quality 从 72.8 推到 81.0，且 Aesthetic Quality 没有下降——说明显式运动建模是「增益」而非「以画质换运动」。
联合建模能力是「补充关系」：显式表示人体运动对外观是互补的，能显著提升人体视频的连贯性与合理性。
同一个模型天然支持视频↔运动双向跨模态补全（运动→视频合成、视频→运动恢复即逆运动学），无需为不同任务训练多个模型。

亮点与洞察¶

重新定义问题：把「人体动作生成做不好」从「数据不够多」重新归因为「纯像素目标学不到运动学」，并用联合分布建模而非外挂条件来根治，问题诊断比方法本身更有价值。
参数化运动比渲染条件更优雅：用 SMPL 参数 token 而非渲染姿态图，既 token 高效又保留原生 3D 结构，避开了「3D 投影回 2D 丢几何信息」的老问题。
MVS-RoPE 的工程巧思：用「时间 $t/4$ 缩放 + 空间对角扩展」一个设计同时解决预训练保护、时序对齐、模态区分三件事，注意力可视化提供了干净的因果证据。
统一架构换来双向能力：联合建模顺带白嫖了视频→运动（逆运动学）这种本来要单独建模的任务。

局限与展望¶

仅支持单人：当前框架只做单人生成；扩到多人虽然架构上可行（拼接多人 SMPL token），但需要构建带逐人标注的大规模新数据集，作者选择先把单人做好。
依赖 SMPL 质量：运动表示绑定在 SMPL 参数化和人体网格恢复（HuMoVe 标注流程）上，对手部精细动作、人物交互、宽松衣物等 SMPL 难以刻画的情形可能受限。
训练成本不低：5B 版本需 32×A100 训约 4 天（4000 A100 GPU 小时），两阶段 15k+12k 步，复现门槛较高。
评测基准自建：T2V benchmark 与 30/类的 prompt 集为作者自建，跨工作可比性有待社区统一基准检验。

评分¶

新颖性: ⭐⭐⭐⭐ 「联合建模视频+SMPL 运动的分布」+ MVS-RoPE 时序同步定位是清晰且少见的组合，问题诊断尤其到位；扣分在于双分支 DiT、两阶段训练、参数化运动表示各自都有前作影子。
实验充分度: ⭐⭐⭐⭐ 覆盖 1.3B/5B 两规模、自动+人工双评测、跨模态补全、关键消融（联合建模 vs 视频微调、MVS-RoPE 注意力可视化）齐全；扣分在基准自建、可比性受限且部分对比依赖人工评分。
写作质量: ⭐⭐⭐⭐ 动机链条清晰、图示（双模态 DiT / MVS-RoPE / 两阶段训练 / 注意力可视化）讲得明白，公式与设计动机对得上。
价值: ⭐⭐⭐⭐ 提供了 8 万对高质量视频-运动配对数据集 HuMoVe，并给「人体视频生成」指出一条「联合建模运动学」的可落地路线，对下游可控人体生成有实际推动。