CLEAR: Context-Aware Learning with End-to-End Mask-Free Inference for Adaptive Video Subtitle Removal¶

会议: ICML 2026
arXiv: 2603.21901
代码: https://github.com/silent-commit/CLEAR (有)
领域: 视频生成 / 视频 inpainting / 字幕擦除
关键词: 视频字幕去除、扩散模型、LoRA、自监督先验、mask-free 推理

一句话总结¶

本文针对视频字幕擦除提出 CLEAR：两阶段训练（Stage I 用 dual encoder + 正交解耦学自监督字幕先验掩码；Stage II 在 Wan2.1 视频扩散模型上加 LoRA + occlusion head 做自适应加权），推理完全不需要任何 mask 或文本检测器，仅训练 0.77% 参数就在中文测试集上把 PSNR 推到 26.80 dB（比最强基线 +6.77 dB），并零样本泛化到 6 种语言。

研究背景与动机¶

领域现状：当前视频字幕擦除主要基于 mask-guided 视频扩散 inpainting（DiffuEraser、EraserDiT、MiniMax-Remover），在每一帧都依赖外部文本检测/分割提供精确二值 mask 作为条件。

现有痛点：(L1) 训练效率低——全参数训练 + 逐帧 mask 标注，标注本身要靠人工或专门分割模型贯穿长视频；(L2) 推理脆弱——上线后还要持续跑文本检测/跟踪，一旦检测失败就出现闪烁、残影或漂移；(L3) 先验利用静态——辅助先验（heatmap、optical flow）被均匀加权使用，忽视字幕在不同帧、不同区域的可靠性差异。

核心矛盾：视频字幕同时具有时序连续性、多样位置/字体、与摄像机/物体运动复杂耦合，需要 (K1) 参数高效 + 无需 mask 标注，(K2) 完全 mask-free 端到端推理，(K3) 自适应权衡先验质量；而现有方法每一条都做不到。

本文目标：构造一个在训练阶段可以从带字幕/干净视频对里自监督学到字幕先验、在推理阶段完全无 mask、且对字幕区域动态自适应加权的框架。

切入角度：利用"带字幕帧 - 干净帧"的像素差作为弱监督伪标签（噪声很大但便宜），通过双编码器 + 正交约束把字幕信息隔离出来；再让扩散模型自己用 occlusion head 边生成边校正先验。

核心 idea：把"识别字幕掩码"的能力在训练时显式蒸馏到 LoRA 微调后的 DiT 中间层，使得推理时只需要把字幕视频塞进去——内部隐式生成 \(\mathcal{M}^{pred}\)，外部完全 mask-free。

方法详解¶

整体框架¶

两阶段流水线。Stage I（自监督先验）：用像素差伪标签训 dual ResNet-50 编码器 (\(E_{\text{sub}},E_{\text{content}}\)) + 4 层 UNet decoder 得到先验掩码 \(\mathcal{M}^{prior}\)，输入只用 ImageNet 预训练，靠正交损失 + 对抗判别器把字幕特征和内容特征解耦。Stage II（自适应加权）：冻结 Wan2.1-Fun-V1.1-1.3B DiT，注入 rank=64 的 LoRA 到所有 attention + FFN，加一个 2.1M 参数的 occlusion head \(\mathcal{H}\) 从 DiT 中间层算出 \(\mathcal{M}^{pred}\)，用 spatial emphasis × focal difficulty 权重 \(w_{i,j,t}\) 调制扩散损失，三损失（distillation + context-aware adaptation + sparsity）联合优化。推理：单输入视频 → DiT + LoRA + 内部 \(\mathcal{M}^{pred}\) → DDIM 5 步 → VAE 解码出 clean 视频，无任何外部模块。

关键设计¶

Stage I 自监督字幕先验（dual encoder + 正交解耦 + 对抗判别）：
- 功能：在不需要人工 mask 的前提下从 500 对视频 pair 里学到一个能预测字幕区域的二值掩码 \(\mathcal{M}^{prior}\)。
- 核心思路：(a) 用像素差 \(\Delta_t=\|\mathbf{X}^{sub}_t-\mathbf{X}^{clean}_t\|_2\) 加 per-frame mean+std 阈值生成伪标签；(b) dual encoder 在 1/8 分辨率分别抽 \(F^{sub}, F^{content}\)；(c) 正交损失 \(\mathcal{L}_{\text{ortho}}=\frac{1}{T H' W'}\sum\langle F^{sub}, F^{content}\rangle^2\) 强制无关；(d) 判别器对抗 \(\mathcal{L}_{\text{adv}}\) 防止 leakage；(e) 解码器仅从 \(F^{sub}\) 出 \(\mathcal{M}^{prior}\)，并要求 \(F^{content}\) 单独能重建干净帧。
- 设计动机：像素差伪标签噪声大（光照、半透明字幕、运动模糊），单看 BCE 学不出好掩码；正交 + 对抗 + 重建三重约束相当于"逼字幕特征单独承载所有差异信息"，这样掩码 head 才能学到 generalize 到未见字体/语言的字幕模式，而非记住特定 token 形状。
Stage II 上下文相关 occlusion head + 自适应加权 \(w_{i,j,t}\)：
- 功能：在 DiT 中间层动态计算每个 patch 的字幕概率，并据此调整该位置在扩散损失里的权重，实现"训练时显式 attend 字幕、生成时隐式擦除"。
- 核心思路：occlusion head \(\mathcal{H}(\mathbf{h}_{enc})=\mathrm{Conv}^1_{1\times 1}(\mathrm{SiLU}(\mathrm{Conv}^{64}_{3\times 3}(\mathbf{h}_{enc})))\) 从 DiT encoder 中间层激活算 \(\mathcal{M}^{pred}=\sigma(\mathcal{H}(\mathbf{h}_{enc}))\)；最终权重 \(w_{i,j,t}=(1+\alpha(k)\cdot\mathcal{M}^{pred}_{i,j,t})\cdot(\epsilon^{gen}_{i,j,t}+\delta)^\gamma\)，前半段是 spatial emphasis（在预测字幕区域加权），后半段是 focal-style difficulty weighting（高重建误差区域加权）；\(\alpha(k)\) 在 \(\alpha_{\min}=5,\alpha_{\max}=15\) 间按三角调度振荡防止陷入局部最优。
- 设计动机：朴素方案是把先验直接当 mask 条件，但 Stage I 先验有噪声；让 head 同时看 latent 噪声、DiT 高级语义、扩散时间步 \(t\) 三种信号，把"先验校准"变成"边生成边判断难度";focal weighting 借鉴 RetinaNet，让简单背景区域少占梯度、字幕硬区域多占。重要的是 \(\mathcal{M}^{pred}\) 不 detach，梯度可以从 \(\mathcal{L}_{\text{gen}}\) 直接流回，形成自校正闭环。
三损失联合优化 + 内化的 mask-free 推理：
- 功能：用 distillation（来自 Stage I 先验）+ generation feedback（生成质量）+ sparsity/KL（防退化）三种信号同时优化 LoRA 和 occlusion head，使 \(\mathcal{M}^{pred}\) 既保留先验结构又能修正局部错误，最终被吸收进 LoRA-augmented attention，推理时不再需要外部 mask。
- 核心思路：\(\mathcal{L}_{stage2}=\mathcal{L}_{distill}+\mathcal{L}_{gen}+0.1\cdot\mathcal{L}_{sparse}\)；\(\mathcal{L}_{distill}\) 用 SmoothL1 让 \(\mathcal{M}^{pred}\approx\mathcal{M}^{prior}\) 但允许 1 单位偏差；\(\mathcal{L}_{gen}\) 是被 \(w\) 加权的标准扩散 \(\epsilon\) 损失；\(\mathcal{L}_{sparse}\) 由 L1 sparsity + \(D_{KL}(\mathcal{M}^{pred}\|\mathcal{M}^{prior})\) 组成，前者防 uniform 退化、后者防漂离先验分布。
- 设计动机：单纯蒸馏先验会把 Stage I 噪声放大；纯靠 generation feedback 又会让 head 输出 trivial（如全 0 或 uniform）。三损失各管一头：distill 给结构、gen 给质量、sparse 给可控性。最终训练完 LoRA + head 把"哪些区域要被擦"的知识吸进 attention 模式，推理时算法（Alg.1）里 \(\mathcal{M}^{pred}\) 是 internal 量、never output，单次 forward 直接出干净视频。

损失函数 / 训练策略¶

Stage I：\(\mathcal{L}_{stage1}=\mathcal{L}_{ortho}+0.5\mathcal{L}_{adv}+\mathcal{L}_{region}+0.1\mathcal{L}_{recon}\)，AdamW lr=\(2\times 10^{-5}\)，1 epoch (~70 min)。Stage II：上式 \(\mathcal{L}_{stage2}\)，AdamW lr=\(1\times 10^{-4}\)，gradient clipping=1.0，1 epoch ≈ 1 天（8×A800）。LoRA rank=64，应用到 q,k,v,o 与 ffn.0/2；\(\gamma=0.8,\delta=10^{-6}\)；Stage II 数据 500 视频 × 81 连续帧。

实验关键数据¶

主实验（中文字幕测试集，400 样本）¶

Method	PSNR↑	SSIM↑	LPIPS↓	VFID↓	TWE↓	Flow Var↓	s/frame↓
ProPainter	17.24	0.658	0.329	98.46	1.286	0.885	2.36
MiniMax-Remover	20.03	0.773	0.166	95.39	4.222	0.415	4.90
DiffuEraser	17.85	0.672	0.458	72.51	1.523	0.630	3.47
CLEAR (mask-free)	26.80	0.894	0.101	20.37	1.227	0.029	4.86

PSNR +6.77 dB、VFID -74.7%、Flow Variance -93.0%；所有基线都要外部 mask，而 CLEAR 只输入字幕视频本身。

消融实验¶

Configuration	PSNR↑	VFID↓	TWE↓
Baseline (LoRA-only)	21.62	34.74	1.320
+ M1: Stage I prior + focal weighting	23.11	38.21	1.303
+ M2: Context Distillation	24.72	31.73	1.279
+ M3: Context-Aware Adaptation	25.09	31.56	1.257
+ M4: Context Consistency (CLEAR)	26.80	20.37	1.227

Inference setting	PSNR↑	VFID↓	s/frame
steps=5 (default)	26.80	20.37	4.86
steps=10	29.43	35.70	9.92
cfg=1.2	29.65	40.71	4.86
lora_scale=0.5	25.17	63.02	4.86
lora_scale=1.5	27.94	42.16	4.86

关键发现¶

累计 5.18 dB PSNR 增益来自四个模块叠加，consistency regularization (M4) 单独提供最大 VFID 下降（-35.5%），说明"防 \(\mathcal{M}^{pred}\) 退化"对 perceptual 质量极关键。
steps=10 PSNR 更高但 VFID 反而劣化（35.70 vs 20.37），暗示更多去噪步引入伪迹，5 步是默认最优。
LoRA scale 0.5 严重欠擦除（LPIPS +82%），1.5 过平滑——1.0 是甜点；CFG=1.0 平衡 fidelity 与 perceptual。
零样本跨语言：训练只用中文字幕，对英语/韩语/法语/日语/俄语/德语都能干净擦除——验证了"学的是抽象遮挡模式而非字符特征"。

亮点与洞察¶

像素差伪标签 + 正交解耦：把昂贵的 mask 标注用"带字幕/干净视频对"的像素差替代，再用正交 + 对抗约束硬把字幕信息单独剥到一个 encoder 里，这一套自监督流程让 500 对视频就足以学出可泛化到 6 种语言的字幕先验，是数据效率上的好示范。
gradient flow through \(\mathcal{M}^{pred}\) 实现自校正：很多 attention/mask 加权方法都把 mask detach 防止干扰主任务，本文反其道而行——故意让扩散损失的梯度回流到 head，使得"高重建误差区"获正梯度抬高 \(\mathcal{M}^{pred}\)、"低误差区"获负梯度降低权重，形成无需 GT mask 的反馈闭环。
mask-free 推理的工程价值极高：去掉文本检测/分割依赖等于砍掉一整条易碎的子管线（OCR 误检、tracking drift 全消失），同时 0.77% 可训练参数 + 单 epoch 训练对实际部署友好；推理一次完成 sub→clean 映射的端到端体验也避免了 cascading error。

局限与展望¶

只在中文字幕训练数据上做主实验（160K 训练对、400 测试），其他语言只给定性可视化，定量泛化能力未量化。
5 步 DDIM 在 1280×720 分辨率下 4.86 s/frame，离实时还有距离；作者提"real-time inference optimization" 但未给出方案。
依赖 Wan2.1-Fun-V1.1-1.3B 作为 backbone，对其他视频扩散模型（HunyuanVideo、Sora 系）的迁移性未验证。
自监督先验对"动画字幕、艺术字、极端半透明字幕"是否依然有效需要更多 stress test；M1 只贡献 +1.49 dB 但 VFID 反升（38.21）暗示先验本身仍带噪声，三损失系统才能扛住。

评分¶

新颖性: ⭐⭐⭐⭐ 自监督正交解耦 + gradient-flow occlusion head + 完全 mask-free 推理三点叠加在视频字幕擦除上是新组合，但单项技术（LoRA、自监督 prior）相对成熟。
实验充分度: ⭐⭐⭐⭐ 数值上 PSNR/VFID/temporal/flow 多维度对比 + 4 模块逐步消融 + 推理超参分析齐全，但跨语言部分缺定量。
写作质量: ⭐⭐⭐⭐ 三个 limitation (L1-L3) 与三个 capability (K1-K3) 一一对应，方法图、算法 box、表格组织清晰。
价值: ⭐⭐⭐⭐ 真正解决了视频字幕擦除部署中的"必须有 mask"痛点，0.77% 参数 + mask-free 推理对产品级应用价值很高。