Object-WIPER: Training-Free Object and Associated Effect Removal in Videos¶

会议: CVPR 2026
arXiv: 2601.06391
代码: 即将发布
领域: 图像生成 / 视频编辑
关键词: 视频物体移除, 关联效应, 训练免费, 注意力机制, 扩散模型

一句话总结¶

提出 Object-WIPER，首个无训练的视频物体及其关联效应（阴影、反射、镜像等）移除框架，利用 DiT 中的文本-视觉交叉注意力和视觉自注意力定位关联效应区域，通过前景重初始化和注意力缩放实现干净移除，并提出 TokSim 指标和 WIPER-Bench 真实世界基准。

研究背景与动机¶

领域现状：视频物体移除是影视制作和隐私保护的关键技术。经典方法（PatchMatch/图割）和学习方法（Propainter）专注填充物体区域，完全忽视关联效应（阴影/反射）。近期扩散方法（VACE/Videopainter）也保留关联效应。

现有痛点：(a) 几乎所有现有方法保留阴影/反射导致视觉伪影；(b) ROSE 能处理关联效应但需大量合成数据训练；(c) Omnimatte-Zero 从用户 mask 扩展关联区域但依赖外部点追踪模型（TAP-Net），在快速运动/透明物体下失败，且扩展策略次优。

核心矛盾：物体移除不等于区域填充——必须同时移除物体的"视觉痕迹"（阴影、反射、镜像等）才算干净移除。

本文目标：无训练地同时移除物体及其所有关联视觉效应。

切入角度：利用 MMDiT 中文本-视觉共享嵌入空间直接定位关联效应，不依赖外部模型。

核心 idea：交叉注意力定位关联效应种子 → 自注意力精修 → 前景重初始化 + 注意力缩放 → 自适应时序 mask。

方法详解¶

整体框架¶

Object-WIPER 想干净地移除视频里的某个物体——不只是它本身，还包括它投下的阴影、在水面/镜子里的反射这些"视觉痕迹"，而且全程不训练任何参数，只在一个预训练的文生视频 DiT 上做推理期操控。输入是一段 RGB 视频 \(\mathcal{I}_k\)、框出物体的 mask \(\mathbf{M}^{obj}\)，以及两段文本提示 \(\{P_s, P_T\}\)（分别描述物体和它的效应）。

整条流水线分三步走：先在 DiT 的注意力里定位出所有关联效应的位置，得到效应 mask \(\mathbf{M}^{AE}\)；再把视频反转回噪声、同时把要保留的背景 latent 值原样存下来；最后把前景（物体 + 效应）区域换成纯噪声重新去噪，让模型凭背景上下文把这块"补"成干净的样子。难点在于第一步的定位（关联效应没有现成 mask）和第三步的重生成（要既抹干净又不破坏背景），下面几个设计正是围绕这两点展开。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：RGB 视频 + 物体 mask + 文本提示（物体/效应）"] --> B["关联效应定位<br/>交叉注意力提议→自注意力补全→效应 mask"]
    B --> C["反转回噪声<br/>时步自适应 Masking 随噪声步膨胀物体 mask"]
    C -->|"注意力缩放 c<1：护住背景 latent"| D["保存纯背景 latent"]
    D --> E["前景重初始化<br/>物体∪效应区域置为高斯噪声"]
    E -->|"注意力缩放 b>1：照背景重画前景"| F["去噪重生成<br/>输出干净视频"]

关键设计¶

1. 关联效应定位：不靠外部模型，直接从 DiT 注意力里挖出阴影和反射

阴影、反射这些效应没有用户标注，最朴素的做法（Omnimatte-Zero）是从物体 mask 往外扩，但弱激活的边缘区域会被漏掉，还得额外挂一个点追踪模型。Object-WIPER 改用 MMDiT 里文本与视觉共享嵌入空间的天然语义关联，两步定位。第一步从文本到图像的交叉注意力里，取与物体/效应文本 token 高相关的视觉 token，按头平均后做 Otsu 阈值，得到一张提议 mask \(m^{PRO}\)：

\[\bar{\mathbf{A}}^{\tilde{T}\to I} = \text{Mean}\Big(\text{Softmax}\big(\tfrac{\mathbf{Q}_{\tilde{T}}\cdot\mathbf{K}_I^\top}{\sqrt{d}}\big)\Big)\]

交叉注意力给出的语义定位虽对，但往往内部有孔洞、不完整。于是第二步用视觉自注意力 \(\mathbf{A}^{I\to I}\) 补全：算每个视觉 token 对 \(m^{PRO}\) 区域的响应比，阈值化后得到最终的关联效应 mask \(\mathbf{M}^{AE}\)。背后的直觉很简单——同属一个物体（含它的影子、倒影）的 token 之间自注意力必然偏高，自注意力因此能把交叉注意力漏掉的孔洞和弱边缘填回来。相比 Omnimatte-Zero 依赖 TAP-Net 点追踪、在快速运动或透明物体上失灵，这套纯内在注意力的方案更鲁棒，也不引入任何外部依赖。

2. 时步自适应 Masking：让 mask 跟着噪声扩散一起"长大"

把视频反转到噪声分布的过程中，自注意力会让物体的"存在感"不断向四周扩散，一张固定 mask 到了高噪声步根本盖不住物体真正影响到的范围。这里在反转每一步重新算物体响应分数

\[RS_p(j) = \frac{\sum_{y\in\mathbf{M}^{obj}(j)}A_{p,y}^{I\to I}}{\sum_{x\in\mathcal{I}(j)}A_{p,x}^{I\to I}}\]

即第 \(p\) 个 token 的注意力里有多大比例落在物体区域上，再阈值化得到随时步动态膨胀的自适应 mask \(\hat{M}_t^{obj}\)。这样物体影响扩散到哪，mask 就跟到哪，避免后续重初始化时漏掉已经"渗"出去的物体信息——在高速行驶的车这类快速运动场景里尤其关键。

3. 注意力缩放：反转时切断"污染"，去噪时引入背景语义

要让前景区域被干净替换，得控制前景与背景之间的信息流向，而且反转和去噪两个阶段的诉求恰好相反。反转阶段，缩小背景对前景的注意力，让背景 latent 少受前景"污染"、尽量保留纯背景信息：

\[\tilde{\mathbf{A}}^{bg\to obj} = \text{Softmax}\big(\tfrac{\mathbf{Q}_I^{bg}\cdot(c\mathbf{K}_I^{obj})^\top}{\sqrt{d}}\big),\quad c<1\]

去噪阶段则反过来，放大前景对背景的注意力，让已被重置为噪声的前景主动去背景里"取景"、按周围语义把空洞补合理：

\[\tilde{\mathbf{A}}^{obj\to bg} = \text{Softmax}\big(\tfrac{\mathbf{Q}_I^{obj}\cdot(b\mathbf{K}_I^{bg})^\top}{\sqrt{d}}\big),\quad b>1\]

一个缩一个放，正好对应"先把背景护干净、再让前景照着背景重画"的两阶段逻辑。

4. 前景重初始化：把残留先验彻底清零，从噪声重画

只缩放注意力还不够——反转得到的前景 latent 里仍然带着物体和效应的结构先验，去噪时容易"复活"出原物体。重初始化干脆把前景（物体 mask 与效应 mask 的并集）那块直接换成高斯噪声，背景值原样保留：

\[\tilde{\mathbf{Z}}_1 = \mathbf{Z}_1\odot\big(1-\mathbf{M}^{obj}\cup\mathbf{M}^{AE}\big) + \varepsilon\odot\big(\mathbf{M}^{obj}\cup\mathbf{M}^{AE}\big)\]

抹掉所有残留先验后，这块区域就只能靠背景上下文重新生成，从根上断了物体复现的可能。消融里去掉它 TokSim 掉得最多（降 2.44），说明它是整套方案里最吃重的一环。

5. TokSim 指标：一个能真正区分"移没移干净"的评测分数

现有指标（如 BG-PSNR）有个根本缺陷：完全不动物体、只做 VAE 重建反而能拿高分，根本测不出移除质量。TokSim 把三件事揉进一个分数——

\[\text{TokSim} = 100\cdot\frac{1}{F}\sum_z\sum_i \lambda_z^k\cdot(1-\eta_z^k)\cdot\tau_z^k\]

其中 \(\lambda\) 奖励时序一致、\(\eta\) 惩罚物体残留、\(\tau\) 奖励前景与背景的融合度。三项相乘意味着任何一环（残留没清、时序闪烁、补得突兀）拉胯都会拖垮总分，因此它能把"假装移除"的方法暴露出来。

⚠️ TokSim 各项符号（\(\lambda/\eta/\tau\) 的精确定义、\(z/i/k\) 的求和范围）以原文为准。

一个完整示例：移除一辆行驶中的汽车及其阴影¶

以一段地面有清晰投影的行车视频为例。用户只给出框住车身的 \(\mathbf{M}^{obj}\) 和文本"car / shadow"。第一步定位：交叉注意力先在车身和地面投影上各点亮一片，但投影边缘有孔洞；自注意力按响应比把孔洞填实，合出完整的 \(\mathbf{M}^{AE}\)，把车下那条拖影也圈了进去。第二步反转回噪声，由于车速快，固定 mask 盖不住车尾"渗"出去的影响，时步自适应 Masking 让 \(\hat{M}_t^{obj}\) 随噪声步逐步膨胀、始终罩住车的影响范围，同时注意力缩放（\(c<1\)）把路面背景的 latent 护干净存下来。第三步重初始化：车身 + 投影区域全部置为高斯噪声，路面、远处建筑的 latent 原样保留；去噪时注意力放大（\(b>1\)）让这块噪声区照着周围沥青路面重画，最终输出一段没有车、也没有那条拖影的干净视频。

损失函数 / 训练策略¶

完全无训练，直接复用预训练的文生视频 DiT；推理期只做注意力操控（缩放）和背景 latent 的值复制，不更新任何参数、也不需要任何合成数据。

实验关键数据¶

主实验¶

方法	训练	DAVIS TokSim↑	WIPER TokSim↑	DAVIS BG-PSNR↑	DAVIS Text-align↑
Propainter	✓	28.24	20.99	34.01	26.18
ROSE	✓	29.36	30.02	26.97	26.13
VACE	✓	15.86	11.53	24.48	24.01
Gen-Prop	✓	30.52	-	24.27	25.89
KV-Edit-Video	✗	28.68	23.26	25.78	25.21
Attentive-Eraser	✗	30.82	25.28	28.07	26.31
Object-WIPER	✗	32.80	33.09	23.02	26.63

消融实验¶

配置	TokSim↑	BG-PSNR↑	Text-align↑
Full Object-WIPER	32.80	23.02	26.63
w/o 注意力缩放	32.97	21.92	26.42
w/o 自适应 mask	32.10	22.73	26.44
w/o 重初始化	30.36	23.47	25.92
w/o \(\mathbf{M}^{AE}\)	32.18	23.10	26.17

关键发现¶

Object-WIPER 无训练即在 TokSim 上赶超所有训练方法（包括专门训练关联效应的 ROSE）
TokSim 比 BG-PSNR 区分力强得多：VAE 重建（不移除物体）BG-PSNR 34.05 但 TokSim 仅 0.32
重初始化是最关键组件（去掉后 TokSim 降 2.44）
关联效应 mask \(\mathbf{M}^{AE}\) 对 WIPER-Bench 至关重要——只有加上才能移除阴影/反射
自适应 mask 在快速运动场景（如高速行驶的车）中必不可少

亮点与洞察¶

MMDiT 内在注意力做关联效应定位：完全不依赖外部模型，利用文本-视觉共享空间的语义关联精准定位。这个技巧可迁移到任何 MMDiT-based 编辑任务
TokSim 指标设计精巧：同时度量移除完整性、时序一致性和背景融合，暴露了现有指标的根本缺陷
WIPER-Bench是首个包含镜像、透明物体、多关联效应等真实场景的物体移除基准

局限与展望¶

BG-PSNR 不如训练方法（因为背景也被扩散模型重新生成）
依赖文本描述物体和效应类型，自动化程度有限
视频分辨率受预训练模型限制
仅处理动态物体，静态物体移除未讨论

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次在 DiT 内解决关联效应定位和移除，TokSim 指标重要
实验充分度: ⭐⭐⭐⭐ 两数据集+新基准+新指标+消融完整
写作质量: ⭐⭐⭐⭐ 问题定义和方法层层递进
价值: ⭐⭐⭐⭐⭐ WIPER-Bench + TokSim 对社区有持久价值