Real-Time Motion-Controllable Autoregressive Video Diffusion¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=4Q55RwYte9
代码: 项目页 https://kesenzhao.github.io/AR-Drag.github.io/
领域: 视频生成 / 扩散模型
关键词: 自回归视频扩散, 运动可控生成, 实时生成, 强化学习, GRPO

一句话总结¶

本文提出 AR-Drag——首个用强化学习增强的少步自回归图生视频（I2V）扩散模型，通过 Self-Rollout 保持马尔可夫性、用选择性随机采样压缩超长决策链，再配上基于轨迹的奖励把 GRPO 引入视频生成，在仅 1.3B 参数下实现了 0.44s 首帧延迟、且画质与运动可控性都超过现有双向运动可控模型。

研究背景与动机¶

领域现状：当前主流的可控视频扩散模型（VDM）几乎清一色基于双向 DiT——所有帧一起去噪，未来帧的信息可以反过来影响过去帧。Tora、DragAnything、DragNUWA、MagicMotion 这些运动可控方法都是这种设计。

现有痛点：双向设计天然不适合实时交互。因为要一次性联合生成整段视频，所以必须等所有控制信号都给定后才能开始去噪，导致延迟极高（Tora 要 176s、5B 的 MagicMotion 甚至 1426s），更没法在视频展开过程中随时调整随时间演化的运动指令。自回归（AR）VDM 逐帧生成、天然契合实时控制，但现有 AR VDM 大多只做文生视频（T2V），要么只支持位姿、相机这种简单控制信号，要么在更难的 I2V 场景里因为误差累积而画质退化、出现运动伪影——尤其是少步模型。

核心矛盾：要把强化学习（RL）这种"试错探索、能泛化到训练分布之外"的能力引入 AR 视频生成（用来对抗误差累积、扩大控制动作空间），却卡在三道坎上：(1) 标准 AR VDM 训练时条件于真实历史帧（teacher forcing），推理时却条件于自己生成的帧，这种 train–test mismatch 破坏了 RL 所需的马尔可夫性（MDP）；(2) 视频生成的决策链长度 = 去噪步数 × 帧数，是个超长 horizon，逐步全程注入随机性会让回报方差爆炸；(3) 缺少针对可控视频生成、能细粒度评估运动对齐的奖励模型。

本文目标 / 核心 idea：构建一个少步、实时、运动可控的 AR I2V 模型，并第一次把 GRPO 成功用上去。切入角度是——既然 GRPO 要 MDP + 随机 rollout，那就分别用 Self-Rollout（训练时严格按推理那样逐步自生成历史，"Markov 化"训练）和 selective stochasticity（只在随机抽中的一个去噪步用 SDE、其余步走确定性 ODE）补齐这两个前提，再加一个基于轨迹的奖励收尾。

方法详解¶

整体框架¶

AR-Drag 分两步走。Step 1 先造一个具备基础运动控制能力的实时 AR 基座模型：先策划带控制信号的视频数据，在 Wan2.1-1.3B-I2V 上微调一个双向教师学会运动控制，再把它蒸馏成少步因果学生（双向注意力换成因果注意力，用 DMD + 对抗损失，每帧只需 N（实现里 N=3）步去噪即可实时推理）；蒸馏过程中引入 Self-Rollout，让训练严格对齐 AR 推理、从而"Markov 化"训练，为 Step 2 的 RL 铺路。Step 2 把 AR 视频生成形式化成 MDP，用 GRPO 优化：Self-Rollout 提供马尔可夫性、ODE→SDE 转换提供随机性，二者合起来满足 GRPO 的前提；再用 selective stochastic sampling 把超长 horizon 的方差压下去，配合一个评估画质 + 运动对齐的复合奖励来优化策略。

控制信号方面，第 \(m\) 帧用三路信号 \(c_m\)：轨迹嵌入 \(c^{traj}_m\)（把原始坐标热力图过 VAE 编码器）、文本嵌入 \(c^{text}\)（正负 prompt，全帧共享）、以及仅在首帧（\(m{=}0\)）注入的参考图嵌入 \(c^{ref}\)（VAE + CLIP 编码），其余帧用高斯噪声占位。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["参考图 + 轨迹 + 文本"] --> B["控制感知数据策划<br/>检测轨迹+人工核验"]
    B --> C["双向教师微调<br/>学运动控制"]
    C -->|蒸馏成因果少步学生| D["Self-Rollout<br/>逐步自生成历史·Markov化"]
    D --> E["MDP + GRPO 强化学习"]
    E -->|压缩超长horizon| F["选择性随机采样<br/>单步SDE其余ODE"]
    E -->|细粒度运动对齐| G["轨迹奖励<br/>画质+运动一致性"]
    F --> H["实时运动可控视频"]
    G --> H

关键设计¶

1. Self-Rollout：用逐步自生成历史把 AR 训练"Markov 化"

这一步直击痛点 (1)：标准 AR VDM 训练用 teacher forcing，每步都条件于真实过去帧，推理时却条件于模型自己的输出，既造成曝光偏差又破坏 RL 需要的马尔可夫性。Self-Rollout 维护一个 KV memory cache 存放此前已去噪的帧作为因果上下文，训练时让所有帧从纯噪声逐帧顺序去噪。记第 \(m\) 帧第 \(n\) 个去噪步的状态为 \(x_{m,n}\)：对每帧随机采一个去噪步 \(n\)，从 \(x_{m,0}\) 逐步去噪到 \(x_{m,n}\)，在此处算 DMD 损失（Eq. 5）和对抗损失；然后继续逐步从 \(x_{m,n}\) 去噪到 \(x_{m,N}\)，用生成的干净帧 \(x_{m,N}\) 更新 KV cache。这样后续帧条件的是自生成的 KV cache 而非真实历史。和 Self-Forcing 的关键区别在于：Self-Forcing 更新 KV cache 时把 \(x_{m,n}\!\to\!x_{m,N}\) 的去噪轨迹塌缩成单步，因而仍偏离推理、仍违反 MDP；Self-Rollout 坚持完整逐步 ancestral sampling、和推理动态一模一样，从而真正消除 train–inference 分布失配，提供干净的序列决策过程供 GRPO 直接优化。消融里去掉 Self-Rollout 后 FID 从 28.98 暴涨到 38.13、FVD 187→354，正说明它对维持画质和马尔可夫性不可或缺。

2. 视频生成的 MDP 形式化 + GRPO

要用 GRPO，先得把 AR 视频去噪写成 MDP。状态 \(s_{m,n}\triangleq(c_m, t_n, X_{m,n})\)，其中视频快照 \(X_{m,n}\) 由"已生成的干净帧 \(x_{<m,N}\) + 正在去噪的 \(x_{m,n}\) + 尚未处理的噪声帧 \(x_{>m,0}\)"三部分拼成；动作 \(a_{m,n}\triangleq x_{m,n+1}\) 即下一去噪状态，由 VDM 策略 \(p_\theta\) 采样（随机性来自 ODE→SDE）。转移分两类：帧内确定性转移、帧去噪完成（\(n{=}N\)）时跳到下一帧初始状态。奖励只在每帧去噪完成时给：\(R(x_{m,N},c_m)=\mathbb{1}[n{=}N]\cdot(R_{quality}+R_{motion})\)。然后把 GRPO 推广到 AR 视频：采一组 \(G\) 个视频及其轨迹，用组内奖励归一化算优势 \(\hat A^{(i)}_{m,n}=\frac{R-\text{mean}}{\text{std}}\)，再用带重要性比裁剪 + KL 正则的目标 \(L_{GRPO}\) 优化。这套形式化是 RL 能落到逐帧逐步去噪上的骨架。

3. 选择性随机采样：用单步 SDE 把超长 horizon 的方差压住

直击痛点 (2)：GRPO 需要随机性来估优势、做探索，随机性靠 ODE→SDE 转换引入（Eq. 4）。但 AR 视频的马尔可夫链极长（步数 × 帧数），如果每个去噪步都做 SDE 采样，轨迹回报方差会爆炸，需要的 rollout 数 \(G\) 飙升、成本不可承受。解法很克制：每帧只随机选一个去噪步 \(\tilde n\) 走 SDE，其余步全部走确定性 ODE solver。这样既注入了足够的随机性供 RL 探索，又把有效 horizon 缩短 5–20 倍、保持计算高效，第一次让 GRPO 在自回归视频扩散上稳定可训。

4. 基于轨迹的复合奖励：把"画得真"和"动得准"一起拉满

直击痛点 (3)：缺少面向可控视频的奖励。本文设计复合奖励 \(R=R_{quality}+R_{motion}\)。画质项用 LAION 美学质量预测器 \(f_{AQ}\)（给每帧打 1–5 分美学分）：\(R_{quality}(x_{m,N})=f_{AQ}(x_{m,N})\)。运动项先用 Co-Tracker 从生成帧估出物体轨迹 \(\hat c^{traj}_m\)，再和真实轨迹比对：\(R_{motion}=\lambda\max(0,\,\alpha-\|\hat c^{traj}_m-c^{traj}_m\|_2^2)\)，其中 \(\alpha\) 是偏置、\(\lambda\) 是缩放系数。用基于检测轨迹的 hinge 式奖励，能对复杂运动信号做细粒度约束，正是 MagicMotion 这种没用 RL 的方法在精细控制上吃亏的地方。

损失函数 / 训练策略¶

Step 1 用扩展了控制信号的流匹配目标 \(L_{FM}(\theta)=\mathbb{E}_{t,x_t}[\|v_\theta(c,t,x_t)-v\|_2^2]\) 微调教师，蒸馏学生时叠加 DMD 损失（最小化 \(\mathbb{E}_t[\text{KL}(p_{\theta,t}\|p_{data,t})]\)）与对抗损失。Step 2 用 \(L_{GRPO}\) 做 RL 后训练。实现上以 Wan2.1-1.3B-I2V 为基座、3 步逐帧去噪，KV cache 固定存 7 帧（超出则淘汰最旧帧），AdamW、lr=1e-5、8×H20；不用 LoRA（怕长尾性能退化）。评测自建 206 段、涵盖多样轨迹与场景的 benchmark。

实验关键数据¶

主实验¶

方法	延迟(s)↓	FID↓	FVD↓	美学↑	运动平滑↑	运动一致↑
DragNUWA	94.26	36.31	376.39	3.30	0.9759	3.71
DragAnything	68.76	38.13	367.74	3.22	0.9811	3.63
Tora	176.51	32.84	283.43	3.86	0.9855	3.97
MagicMotion (5B)	1426.37	30.04	230.53	4.01	0.9871	3.95
Self-Forcing	0.95	34.47	315.87	3.70	0.9920	4.06
AR-Drag (1.3B)	0.44	28.98	187.49	4.07	0.9948	4.37

AR-Drag 在全部六项指标上都最好：延迟 0.44s 不到 Tora 的 1%、是 Self-Forcing（0.95s，它一次去噪 3 帧）的不到一半；FID/FVD 最低、美学最高，运动平滑与一致性也最优。尤其它以 1.3B 参数反超 5B 的 MagicMotion，原因正是后者没用 RL、细粒度控制能力受限。

消融实验¶

配置	延迟(s)↓	FID↓	FVD↓	美学↑	运动平滑↑	运动一致↑
AR-Drag (完整)	0.44	28.98	187.49	4.07	0.9948	4.37
w/o RL（基座）	0.44	31.65	210.35	3.92	0.9926	4.12
Initial model（Wan2.1 原始）	45.72	35.94	303.16	3.84	0.9915	3.22
Teacher model（双向多步）	45.64	29.38	151.46	4.15	0.9941	4.36
w/o Self-Rollout	0.44	38.13	353.75	3.38	0.9904	4.02

关键发现¶

Self-Rollout 是最关键的一环：去掉后 FID 28.98→38.13、FVD 187→354，画质严重退化、出现明显伪影，因为破坏了马尔可夫性、放大了 train–test 失配。
RL 后训练实打实涨点：w/o RL 时 FID 28.98→31.65、运动一致 4.37→4.12；RL 鼓励探索，能补出参考图里缺失的细节（如脚部）、还缓解了 w/o RL 那种色彩过饱和。
以小搏大：AR-Drag（学生）在 FID、美学、运动平滑/一致上追平甚至超过双向多步教师（FID 28.98 vs 29.38），但延迟从 45.64s 砍到 0.44s——证明 RL 让少步因果学生突破了 DMD 蒸馏的上界。

亮点与洞察¶

把 GRPO 第一次搬进自回归视频生成：核心洞察是"GRPO 落不了地不是因为算法，而是 AR VDM 既不满足 MDP 又 horizon 太长"，于是对症下两味药——Self-Rollout 补马尔可夫性、selective stochasticity 压方差，思路清晰且可迁移到其他长链序列生成的 RL。
Self-Rollout vs Self-Forcing 的"一步之差"很巧妙：同样用自生成历史，区别只在 KV cache 更新时是"逐步走完"还是"塌缩成一步"，但这一步决定了能否严格符合推理动态、能否接 RL——是个小而关键的修正。
选择性随机采样这个 trick 通用：凡是"长决策链 + 需要随机探索"的扩散式 RL，都可以借鉴"只在一步注入 SDE 随机性、其余确定性"来把方差和成本压下去。

局限与展望¶

奖励里画质用通用美学预测器、运动用 Co-Tracker 估轨迹，奖励质量受这些现成模型上界制约；美学分对"好不好看"的刻画偏粗。
自建 206 段 benchmark 规模有限，运动一致性指标本身又复用了自家奖励模型，存在一定自指风险。
KV cache 只存 7 帧，超长视频的远距离一致性、以及更密集/多物体并发轨迹下的表现，文中未充分压力测试。
仍是 1.3B 小模型，画质上界相对受限；放大到更大基座后这套 RL 配方是否同样稳定有待验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个 RL 增强的少步 AR I2V 运动可控扩散，Self-Rollout + 选择性随机采样把 GRPO 首次落到视频生成。
实验充分度: ⭐⭐⭐⭐ 主表六指标全胜 + 系统消融，但 benchmark 偏小、运动指标部分自指。
写作质量: ⭐⭐⭐⭐ MDP 形式化与两步流程交代清楚，公式完整。
价值: ⭐⭐⭐⭐⭐ 0.44s 实时 + 1.3B 小模型反超 5B，对交互式可控视频生成实用价值高。