Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=UtL0hIjENO
代码: https://github.com/junbao-zhou/DragStream
领域: 视频生成 / 交互式视频编辑 / 扩散模型
关键词: 流式视频生成, 拖拽操作, 自回归扩散, 免训练, 隐空间漂移

一句话总结¶

本文提出 REVEL 任务——让用户在自回归视频扩散模型流式生成的过程中"随时拖、拖任意物体"，并给出一个免训练方法 DragStream，用"自适应分布自校正"压住拖拽累积导致的隐空间漂移、用"空间-频率选择性优化"压住上文帧的干扰，在不微调模型的前提下实现高质量的流式拖拽式编辑与动画。

研究背景与动机¶

领域现状：自回归视频扩散模型（autoregressive VDM）已能逐帧、流式地把视频生成出来，并配合 KV cache 加速推理；与此同时，拖拽（drag）因为粒度细、交互直观，成了控制视频生成的主流信号之一（DragVideo、SG-I2V、Tora 等）。

现有痛点：但"流式生成"和"拖拽控制"这两条线几乎没有合到一起。已有拖拽方法要么只能编辑已生成好的离线视频帧（DragVideo），要么只能按轨迹把图片"动画化"（SG-I2V、Tora），用户无法在生成进行时随时介入；而且这些方法对拖拽操作本身的定义也不统一——有的只支持平移、不支持绕中心旋转，有的不让用户指定"是要编辑这一帧还是要由它生成后续帧"。要支持流式细粒度拖拽，最直接的办法是拿大规模拖拽数据去微调 VDM，但那需要数百乃至上千 H100 GPU 小时，对资源受限场景不现实。

核心矛盾：作者把流式拖拽难做的根因落到两个具体观察上。其一，隐空间分布漂移：拖拽是对隐变量的扰动，在自回归逐帧推进中这些扰动会不断累积，使隐编码的均值/方差/极值显著偏离原始分布，最终把拖拽过程"卡死"，甚至让物体颜色、类别等属性发生意外改变。其二，上文帧干扰：流式生成强依赖前几帧的视觉线索（KV cache），但 handle 点附近的上文特征会误导后续生成，比如在兔子身上长出重复的耳朵、在车上产生伪影，让画面变得不自然。

本文目标：在不微调模型、即插即用接入现有自回归 VDM 的前提下，让用户能在生成途中对任意内容做平移/形变/2D 与 3D 旋转的拖拽，同时把上述两个失效模式都摁住。

切入角度：既然两大障碍分别来自"隐编码统计量漂了"和"上文信息既有用又有害"，那就不去改模型权重，而是在每一步迭代式隐空间优化里直接对隐编码做统计校正、对上文特征做选择性利用——这是一条纯推理期、免训练的路。

核心 idea：把流式拖拽统一成"编辑 + 动画"两类操作，用邻帧统计量把漂移拉回原分布（ADSR），再在频率域和空间域上选择性地传播上文线索（SFSO），从而免训练地实现"随时拖、拖任意物体"。

方法详解¶

整体框架¶

DragStream 解决的是这样一个场景：用户在流式生成观察到第 \(k\) 帧 \(\Gamma_k\)，给出拖拽指令 \(U^k=\{E^k, C^k\}\)，其中 \(E^k\) 是要拖的 handle 区域、\(C^k\) 是对应指令（含指示符 \(\eta^k\) 决定"编辑还是动画"、操作类型 \(\zeta^k_i\)、以及含 handle 点/目标点/旋转中心的 \(O^k_i\)）。一个关键约定是：若是编辑（Editing），被操作的帧 \(k'=k\)，相当于对当前帧自引导地重去噪；若是动画（Animation），\(k'>k\)，相当于用当前帧的扰动特征去跨帧引导新帧的去噪。

整条流水线围绕"迭代式隐空间区域优化"展开：先把噪声隐码 \(z^{k'}_T\) 去噪到某个中间步 \(z^{k'}_{T'}\)，从 DiT 去噪器多层抽取参考特征 \(F(z^{k'}_{T'})\)（注意力里用到上文帧的 KV cache）；根据用户指令把 handle 区域 \(H^k_i\) 在特征图上算出拖拽后的目标位置 \(Y^{k'}_i\) 和坐标映射 \(\Pi_{H^k_i\to Y^{k'}_i}\)（旋转用 \(\mathrm{Rot}\)、平移用 \(\mathrm{Trans}\)）；然后用一个总损失 \(\mathcal{L}_{Tot}\) 反复优化 \(z^{k'}_{T'}\)，把 handle 特征"搬"到目标位置、同时锁住不可编辑区域。ADSR 和 SFSO 就嵌在这个迭代优化里——前者在每次迭代后校正隐码分布，后者在抽取参考特征和回传梯度时做频率/空间选择。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["流式生成第 k 帧<br/>用户给拖拽指令"] --> B["统一拖拽算子<br/>编辑 k'=k / 动画 k'>k<br/>算目标位置 Y 与坐标映射"]
    B --> C["迭代式隐空间区域优化<br/>重构损失搬运 handle 特征"]
    C --> D["空间-频率选择性优化<br/>SFS 频率域 + CSS 空间域<br/>压住上文帧干扰"]
    D --> E["自适应分布自校正<br/>用邻帧均值方差拉回隐码分布"]
    E -->|未达 I 次迭代| C
    E -->|收敛| F["解码输出该帧<br/>继续流式生成"]

关键设计¶

1. 统一的拖拽算子与迭代式隐空间区域优化：把"编辑/动画 × 平移/形变/旋转"收进一套优化目标

针对现有方法"拖拽定义不统一、且离线/轨迹两条路互不相容"的痛点，本文先在任务层面把拖拽统一为"对视频帧做编辑或动画，两者都支持用户指定的平移、形变、2D/3D 旋转"，再用一个统一的优化过程去实现它。具体地，对 handle 区域 \(H^k_i\)，先按指令算出它被拖拽后的目标掩码与坐标映射：旋转时 \(\mathrm{Rot}(H^k_i, c^k_i, \theta=\angle p^{k'}_i c^k_i p^k_i)\) 绕中心 \(c^k_i\) 转 \(\theta\) 角，否则 \(\mathrm{Trans}(H^k_i, \vartheta=p^{k'}_i-p^k_i)\) 平移 \(\vartheta\)。优化目标是

\[\mathcal{L}_{Tot}=\underbrace{\|F(z^{k'}_{T'})*Y^{k'}_i - F_{ref}(z^{k}_{T'})[\Pi_{H^k_i\to Y^{k'}_i}]*Y^{k'}_i\|_1}_{\mathcal{L}_{Rec}} + \underbrace{\|F(z^{k'}_{T'})*M^{k'} - F_{init}(z^{k'}_{T'})*M^{k'}\|_1}_{\mathcal{L}_{Cst}}\]

其中重构项 \(\mathcal{L}_{Rec}\) 把"原 handle 区域的（被干预调整过的）参考特征"重建到目标位置，约束项 \(\mathcal{L}_{Cst}\) 用二值掩码 \(M^{k'}\) 锁住不可编辑区域。编辑时参考特征取自当前帧（自引导），动画时取自第 \(k\) 帧并去引导新帧 \(k'\) 的去噪（跨帧引导），从而把两种看似不同的需求落进同一套迭代优化里。

2. 自适应分布自校正（ADSR）：用邻帧统计量把漂移的隐码拉回原分布

这一设计直接针对 Challenge 1——拖拽扰动在自回归推进中累积，使隐码均值/方差大幅偏移、把拖拽过程卡死并改变物体属性。作者观察到：相邻帧本应处于相近的隐分布，于是把第 \(k'\) 帧之前一段邻近隐码 \(\{z^i_{T'}\}_{i=k'-L_n-1:k'-1}\) 的均值 \(\bar{\mu}_{T'}\) 与标准差 \(\bar{\sigma}_{T'}\) 记录下来，在每次迭代优化之后对当前隐码做一次分布对齐：

\[\hat{z}^{k'}_{T'}=\frac{\mathrm{Iter\_optim}(z^{k'}_{T'}, U^k)-\mu^{k'}_{T'}}{\sigma^{k'}_{T'}}*\bar{\sigma}_{T'}+\bar{\mu}_{T'}\]

即先用当前帧自身的 \(\mu^{k'}_{T'},\sigma^{k'}_{T'}\) 做标准化、再用邻帧统计量 \(\bar{\sigma}_{T'},\bar{\mu}_{T'}\) 还原。这样每一步都把隐码的一阶/二阶统计量重新对齐到"未被拖拽污染"的邻帧水平，既不需要训练，又能稳稳压住累积漂移，避免拖到一半物体变色/变类。

3. 空间-频率选择性优化（SFSO）：既要吃上文信息又要躲它的干扰

针对 Challenge 2——上文帧线索既是必需的条件又会误导生成，SFSO 在频率域和空间域两路做选择。频率域上提出可切换频率选择（SFS）：高频信息细节丰富但带噪、易诱发伪影，低频信息稳健但缺细节，于是在构造参考特征的 \(L\) 层自注意力里，把当前与缓存的 KV 拼接后送进巴特沃斯滤波器，截止频率 \(\omega\) 从一组候选 \(\{\omega_i\}\) 里随机切换：

\[\{\bar{K}^k_{l_i}, \bar{V}^k_{l_i}\}=\mathrm{IFFT}(\mathrm{Butterw}(\mathrm{FFT}(\{\bar{K}^k_{l_i}, \bar{V}^k_{l_i}\}), \omega=\mathrm{Random}(\omega_1,...,\omega_N)))\]

随机切换让不同频段的上文信息都能经由重构损失传到隐码，同时防止高频长期主导而产生伪影。空间域上提出关键性驱动的空间选择（CSS）：用一张随到编辑中心 \((x_c,y_c)\) 距离衰减的高斯图 \(G^{k'}\) 去加权回传的梯度，

\[z^{k'}_{T'}\leftarrow z^{k'}_{T'}-G^{k'}\frac{\partial \mathcal{L}_{Tot}}{\partial z^{k'}_{T'}},\quad G^{k'}[x,y]=\exp\!\left(-\Big(\tfrac{(x-x_c)^2}{2\sigma_x^2}+\tfrac{(y-y_c)^2}{2\sigma_y^2}\Big)\right)\]

其中 \(\sigma_x=\tfrac{W}{2}\alpha,\sigma_y=\tfrac{H}{2}\alpha\) 由 handle 最小外接矩形的宽高决定（\(\alpha=1\)）。这样梯度集中在真正要拖的关键区域、不去过度优化背景，进一步减少不自然内容。SFS 与 CSS 合起来即"先选频段、再选空间位置"，把上文信息的价值留下、把干扰滤掉。

损失函数 / 训练策略¶

方法完全免训练，无需任何参数更新，全部发生在推理期的迭代式隐空间优化中。核心目标即上面的 \(\mathcal{L}_{Tot}=\mathcal{L}_{Rec}+\mathcal{L}_{Cst}\)：重构项负责把 handle 特征搬到目标位置，约束项负责锁住不可编辑区域。迭代次数 \(I\) 是主要超参，实验取 \(I=4\)；CSS 高斯展宽系数 \(\alpha=1\)；SFS 的截止频率在一组候选中随机切换。

实验关键数据¶

由于 REVEL 是全新任务，没有现成方法可比，作者把两个免训练方法 SG-I2V 与 DragVideo 适配到 REVEL 上作为基线。评测指标为 ObjMC（物体运动控制精度，越低越好）、DAI（拖拽精度相关，越低越好）、FVD 与 FID（视频/图像质量，越低越好）。

主实验¶

指标（↓）	SG-I2V	DragVideo	DragStream（本文）
ObjMC	44.19	49.69	23.05
FVD	936.89	561.45	552.39
FID	33.59	25.02	23.72
DAI	0.08	0.09	0.05

四项指标全面领先：FID/FVD 最低说明画质更好，ObjMC/DAI 最低说明拖拽更精准。可视化上，DragStream 相比两个基线更好地保住了物体外观与结构，畸变、伪影和拖拽失败都更少。

消融实验¶

配置	结论
w/o ADSR, SFSO	性能最差，两个核心组件都拿掉时下降最明显
w/ ADSR	加回 ADSR 后明显回升，但去掉 SFSO 仍有显著差距
w/ ADSR + SFS	仅用频率选择，弱于完整 SFSO
w/ ADSR + CSS	仅用空间选择，弱于完整 SFSO
Full（ADSR+SFS+CSS）	全配置最佳

运行时分析（H20 GPU，RF 为每帧耗时）：

迭代数 \(I\)	RF	ObjMC（↓）	DAI（↓）
0（基线）	0.17s	90.39	0.133
2	0.24s	27.67	0.054
3	0.27s	24.55	0.053
4（本文）	0.30s	23.05	0.051

关键发现¶

ADSR 与 SFSO 都不可或缺，二者同时去掉时掉点最严重；SFSO 里 SFS 与 CSS 单用都不如合用，说明频率选择与空间选择互补。
截止频率 \(\omega\) 太大或太小都掉点，随机切换（Switch）反而最好——既吃到上文信息又不让高频主导拖拽。
迭代次数只需 \(I=4\) 即可，相比基线每帧仅多 0.13s；降到 \(I=2/3\) 还能再提速，且仍明显优于不用 DragStream 的基线。
在遮挡-再现、长视频等复杂流式场景下仍能稳定拖拽，得益于 VDM 在大规模数据上学到的遮挡/场景转换先验。

亮点与洞察¶

把"流式 + 拖拽"这件没人统一做的事先定义清楚再解：作者先提出 REVEL 任务并把拖拽统一为"编辑/动画 × 平移/形变/2D-3D 旋转"，再用一套迭代优化覆盖，任务定义本身就是贡献。
ADSR 的统计量校正非常朴素却切中要害：用邻帧均值/方差对隐码做标准化-还原，零训练成本就把自回归累积漂移这一"卡死拖拽"的元凶摁住，这种"分布对齐"思路可迁移到任何会发生隐空间累积漂移的流式生成任务。
频率随机切换是个聪明的折中：与其纠结固定截止频率，不如在高/低频之间随机切换，让重构损失把各频段信息都吸收进来，同时避免高频长期主导——对所有"上文既有用又有害"的条件生成都有启发。
即插即用、免训练：整套方法不动模型权重，可直接嫁接到现有自回归 VDM，每帧额外开销低至 0.13s。

局限与展望¶

作者承认在高度不合理、物理上不可能的拖拽指令下会失败（如不合理的过度拉伸、违背物理的拖动），因为这类指令与 VDM 从大规模数据学到的先验强烈冲突。
评测缺少与微调类强基线的直接对比：基线只有两个被适配过来的免训练方法（SG-I2V、DragVideo），看不出和"花上千 GPU 小时微调"的方法相比差距多大。
长视频里自回归的累积误差仍是开放问题，本文只是"仍能有效拖拽"，未根治误差累积。
ADSR 假设邻帧分布相近，在镜头剧烈切换/快速转场时这一前提可能不成立，校正反而可能拉偏，值得进一步分析。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出并统一定义"流式拖拽式视频操作"任务，并给出免训练解法。
实验充分度: ⭐⭐⭐⭐ 指标全面领先、消融与运行时分析到位，但缺与微调强基线的对比。
写作质量: ⭐⭐⭐⭐ 两大挑战与两大组件一一对应、逻辑清晰，公式偏密集。
价值: ⭐⭐⭐⭐⭐ 即插即用、免训练，对交互式视频生成的落地很实用。