Object-WIPER: Training-Free Object and Associated Effect Removal in Videos¶
会议: CVPR 2026
arXiv: 2601.06391
代码: 即将发布
领域: 图像生成 / 视频编辑
关键词: 视频物体移除, 关联效应, 训练免费, 注意力机制, 扩散模型
一句话总结¶
提出 Object-WIPER,首个无训练的视频物体及其关联效应(阴影、反射、镜像等)移除框架,利用 DiT 中的文本-视觉交叉注意力和视觉自注意力定位关联效应区域,通过前景重初始化和注意力缩放实现干净移除,并提出 TokSim 指标和 WIPER-Bench 真实世界基准。
研究背景与动机¶
领域现状:视频物体移除是影视制作和隐私保护的关键技术。经典方法(PatchMatch/图割)和学习方法(Propainter)专注填充物体区域,完全忽视关联效应(阴影/反射)。近期扩散方法(VACE/Videopainter)也保留关联效应。
现有痛点:(a) 几乎所有现有方法保留阴影/反射导致视觉伪影;(b) ROSE 能处理关联效应但需大量合成数据训练;(c) Omnimatte-Zero 从用户 mask 扩展关联区域但依赖外部点追踪模型(TAP-Net),在快速运动/透明物体下失败,且扩展策略次优。
核心矛盾:物体移除不等于区域填充——必须同时移除物体的"视觉痕迹"(阴影、反射、镜像等)才算干净移除。
本文目标:无训练地同时移除物体及其所有关联视觉效应。
切入角度:利用 MMDiT 中文本-视觉共享嵌入空间直接定位关联效应,不依赖外部模型。
核心 idea:交叉注意力定位关联效应种子 → 自注意力精修 → 前景重初始化 + 注意力缩放 → 自适应时序 mask。
方法详解¶
整体框架¶
Object-WIPER 想干净地移除视频里的某个物体——不只是它本身,还包括它投下的阴影、在水面/镜子里的反射这些"视觉痕迹",而且全程不训练任何参数,只在一个预训练的文生视频 DiT 上做推理期操控。输入是一段 RGB 视频 \(\mathcal{I}_k\)、框出物体的 mask \(\mathbf{M}^{obj}\),以及两段文本提示 \(\{P_s, P_T\}\)(分别描述物体和它的效应)。
整条流水线分三步走:先在 DiT 的注意力里定位出所有关联效应的位置,得到效应 mask \(\mathbf{M}^{AE}\);再把视频反转回噪声、同时把要保留的背景 latent 值原样存下来;最后把前景(物体 + 效应)区域换成纯噪声重新去噪,让模型凭背景上下文把这块"补"成干净的样子。难点在于第一步的定位(关联效应没有现成 mask)和第三步的重生成(要既抹干净又不破坏背景),下面几个设计正是围绕这两点展开。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:RGB 视频 + 物体 mask + 文本提示(物体/效应)"] --> B["关联效应定位<br/>交叉注意力提议→自注意力补全→效应 mask"]
B --> C["反转回噪声<br/>时步自适应 Masking 随噪声步膨胀物体 mask"]
C -->|"注意力缩放 c<1:护住背景 latent"| D["保存纯背景 latent"]
D --> E["前景重初始化<br/>物体∪效应区域置为高斯噪声"]
E -->|"注意力缩放 b>1:照背景重画前景"| F["去噪重生成<br/>输出干净视频"]
关键设计¶
1. 关联效应定位:不靠外部模型,直接从 DiT 注意力里挖出阴影和反射
阴影、反射这些效应没有用户标注,最朴素的做法(Omnimatte-Zero)是从物体 mask 往外扩,但弱激活的边缘区域会被漏掉,还得额外挂一个点追踪模型。Object-WIPER 改用 MMDiT 里文本与视觉共享嵌入空间的天然语义关联,两步定位。第一步从文本到图像的交叉注意力里,取与物体/效应文本 token 高相关的视觉 token,按头平均后做 Otsu 阈值,得到一张提议 mask \(m^{PRO}\):
交叉注意力给出的语义定位虽对,但往往内部有孔洞、不完整。于是第二步用视觉自注意力 \(\mathbf{A}^{I\to I}\) 补全:算每个视觉 token 对 \(m^{PRO}\) 区域的响应比,阈值化后得到最终的关联效应 mask \(\mathbf{M}^{AE}\)。背后的直觉很简单——同属一个物体(含它的影子、倒影)的 token 之间自注意力必然偏高,自注意力因此能把交叉注意力漏掉的孔洞和弱边缘填回来。相比 Omnimatte-Zero 依赖 TAP-Net 点追踪、在快速运动或透明物体上失灵,这套纯内在注意力的方案更鲁棒,也不引入任何外部依赖。
2. 时步自适应 Masking:让 mask 跟着噪声扩散一起"长大"
把视频反转到噪声分布的过程中,自注意力会让物体的"存在感"不断向四周扩散,一张固定 mask 到了高噪声步根本盖不住物体真正影响到的范围。这里在反转每一步重新算物体响应分数
即第 \(p\) 个 token 的注意力里有多大比例落在物体区域上,再阈值化得到随时步动态膨胀的自适应 mask \(\hat{M}_t^{obj}\)。这样物体影响扩散到哪,mask 就跟到哪,避免后续重初始化时漏掉已经"渗"出去的物体信息——在高速行驶的车这类快速运动场景里尤其关键。
3. 注意力缩放:反转时切断"污染",去噪时引入背景语义
要让前景区域被干净替换,得控制前景与背景之间的信息流向,而且反转和去噪两个阶段的诉求恰好相反。反转阶段,缩小背景对前景的注意力,让背景 latent 少受前景"污染"、尽量保留纯背景信息:
去噪阶段则反过来,放大前景对背景的注意力,让已被重置为噪声的前景主动去背景里"取景"、按周围语义把空洞补合理:
一个缩一个放,正好对应"先把背景护干净、再让前景照着背景重画"的两阶段逻辑。
4. 前景重初始化:把残留先验彻底清零,从噪声重画
只缩放注意力还不够——反转得到的前景 latent 里仍然带着物体和效应的结构先验,去噪时容易"复活"出原物体。重初始化干脆把前景(物体 mask 与效应 mask 的并集)那块直接换成高斯噪声,背景值原样保留:
抹掉所有残留先验后,这块区域就只能靠背景上下文重新生成,从根上断了物体复现的可能。消融里去掉它 TokSim 掉得最多(降 2.44),说明它是整套方案里最吃重的一环。
5. TokSim 指标:一个能真正区分"移没移干净"的评测分数
现有指标(如 BG-PSNR)有个根本缺陷:完全不动物体、只做 VAE 重建反而能拿高分,根本测不出移除质量。TokSim 把三件事揉进一个分数——
其中 \(\lambda\) 奖励时序一致、\(\eta\) 惩罚物体残留、\(\tau\) 奖励前景与背景的融合度。三项相乘意味着任何一环(残留没清、时序闪烁、补得突兀)拉胯都会拖垮总分,因此它能把"假装移除"的方法暴露出来。
⚠️ TokSim 各项符号(\(\lambda/\eta/\tau\) 的精确定义、\(z/i/k\) 的求和范围)以原文为准。
一个完整示例:移除一辆行驶中的汽车及其阴影¶
以一段地面有清晰投影的行车视频为例。用户只给出框住车身的 \(\mathbf{M}^{obj}\) 和文本"car / shadow"。第一步定位:交叉注意力先在车身和地面投影上各点亮一片,但投影边缘有孔洞;自注意力按响应比把孔洞填实,合出完整的 \(\mathbf{M}^{AE}\),把车下那条拖影也圈了进去。第二步反转回噪声,由于车速快,固定 mask 盖不住车尾"渗"出去的影响,时步自适应 Masking 让 \(\hat{M}_t^{obj}\) 随噪声步逐步膨胀、始终罩住车的影响范围,同时注意力缩放(\(c<1\))把路面背景的 latent 护干净存下来。第三步重初始化:车身 + 投影区域全部置为高斯噪声,路面、远处建筑的 latent 原样保留;去噪时注意力放大(\(b>1\))让这块噪声区照着周围沥青路面重画,最终输出一段没有车、也没有那条拖影的干净视频。
损失函数 / 训练策略¶
完全无训练,直接复用预训练的文生视频 DiT;推理期只做注意力操控(缩放)和背景 latent 的值复制,不更新任何参数、也不需要任何合成数据。
实验关键数据¶
主实验¶
| 方法 | 训练 | DAVIS TokSim↑ | WIPER TokSim↑ | DAVIS BG-PSNR↑ | DAVIS Text-align↑ |
|---|---|---|---|---|---|
| Propainter | ✓ | 28.24 | 20.99 | 34.01 | 26.18 |
| ROSE | ✓ | 29.36 | 30.02 | 26.97 | 26.13 |
| VACE | ✓ | 15.86 | 11.53 | 24.48 | 24.01 |
| Gen-Prop | ✓ | 30.52 | - | 24.27 | 25.89 |
| KV-Edit-Video | ✗ | 28.68 | 23.26 | 25.78 | 25.21 |
| Attentive-Eraser | ✗ | 30.82 | 25.28 | 28.07 | 26.31 |
| Object-WIPER | ✗ | 32.80 | 33.09 | 23.02 | 26.63 |
消融实验¶
| 配置 | TokSim↑ | BG-PSNR↑ | Text-align↑ |
|---|---|---|---|
| Full Object-WIPER | 32.80 | 23.02 | 26.63 |
| w/o 注意力缩放 | 32.97 | 21.92 | 26.42 |
| w/o 自适应 mask | 32.10 | 22.73 | 26.44 |
| w/o 重初始化 | 30.36 | 23.47 | 25.92 |
| w/o \(\mathbf{M}^{AE}\) | 32.18 | 23.10 | 26.17 |
关键发现¶
- Object-WIPER 无训练即在 TokSim 上赶超所有训练方法(包括专门训练关联效应的 ROSE)
- TokSim 比 BG-PSNR 区分力强得多:VAE 重建(不移除物体)BG-PSNR 34.05 但 TokSim 仅 0.32
- 重初始化是最关键组件(去掉后 TokSim 降 2.44)
- 关联效应 mask \(\mathbf{M}^{AE}\) 对 WIPER-Bench 至关重要——只有加上才能移除阴影/反射
- 自适应 mask 在快速运动场景(如高速行驶的车)中必不可少
亮点与洞察¶
- MMDiT 内在注意力做关联效应定位:完全不依赖外部模型,利用文本-视觉共享空间的语义关联精准定位。这个技巧可迁移到任何 MMDiT-based 编辑任务
- TokSim 指标设计精巧:同时度量移除完整性、时序一致性和背景融合,暴露了现有指标的根本缺陷
- WIPER-Bench是首个包含镜像、透明物体、多关联效应等真实场景的物体移除基准
局限与展望¶
- BG-PSNR 不如训练方法(因为背景也被扩散模型重新生成)
- 依赖文本描述物体和效应类型,自动化程度有限
- 视频分辨率受预训练模型限制
- 仅处理动态物体,静态物体移除未讨论
相关工作与启发¶
- vs Omnimatte-Zero: 不依赖 TAP-Net 点追踪,定位策略更完善
- vs ROSE/Gen-Prop: 训练型方法需大量合成数据,Object-WIPER 零成本
- vs KV-Edit: KV-Edit 针对图像设计,简单扩展到视频效果差
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次在 DiT 内解决关联效应定位和移除,TokSim 指标重要
- 实验充分度: ⭐⭐⭐⭐ 两数据集+新基准+新指标+消融完整
- 写作质量: ⭐⭐⭐⭐ 问题定义和方法层层递进
- 价值: ⭐⭐⭐⭐⭐ WIPER-Bench + TokSim 对社区有持久价值