SelfHVD: Self-Supervised Handheld Video Deblurring¶

会议: CVPR 2026
arXiv: 2508.08605
代码: https://cshonglei.github.io/SelfHVD
领域: 图像恢复
关键词: 视频去模糊, 自监督学习, 手持设备, 光学防抖, 自增强训练

一句话总结¶

SelfHVD 利用手持视频中自然存在的清晰帧作为监督信号，通过自增强视频去模糊（SEVD）构建高质量训练对和自约束空间一致性维护（SCSCM）防止位移偏移，实现了无需配对数据的手持视频去模糊。

研究背景与动机¶

领域现状：学习式视频去模糊方法在网络设计上取得了很大进展，但其预训练模型通常只对与训练样本类似的模糊数据有效。
现有痛点：手持视频的模糊不仅受相机抖动影响，还受OIS校正影响，其模糊分布与现有训练数据集（如GoPro、BSD）显著不同，导致现有模型表现不佳。
核心矛盾：采集配对手持视频去模糊数据集成本高昂且过程复杂，但直接使用合成模糊数据又存在域差距。
本文目标：利用手持视频中自然存在的清晰帧，以自监督方式学习去模糊模型，避免对配对数据的需求。
切入角度：当拍摄设备运动轨迹简单（如直线）且速度缓慢时，OIS可以正常工作，产生清晰帧。这些清晰帧可为相邻模糊帧提供去模糊线索和监督。
核心idea：清晰帧→对齐监督→SEVD自增强超越清晰帧上限→SCSCM防止空间漂移。

方法详解¶

整体框架¶

SelfHVD 要做的是：在没有任何配对清晰-模糊数据的前提下，只靠手持视频本身把模糊帧修清楚。它的依据是一个被忽视的事实——当相机运动轨迹简单且缓慢时 OIS 能正常工作，视频里会自然冒出一些清晰帧。整条流程因此分三步走：先把这些天然清晰帧挑出来、对齐到相邻模糊帧上当监督；再用模型自己的去模糊能力反过来造出比原清晰帧更好的训练对，让模型超越"只能复现清晰帧"的天花板；最后用历史模型约束输出，堵住对齐误差长期累积导致的空间漂移。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["手持视频<br/>无配对清晰-模糊数据"]
    subgraph SEL["清晰帧选择与对齐"]
        direction TB
        B["拉普拉斯方差 + Otsu 自动选清晰帧 S"] --> C["SEA-RAFT 光流 warp 到模糊帧位置"]
        C --> D["不确定性掩码 + 遮挡掩码<br/>只在对齐可靠区监督"]
    end
    subgraph SEVD["自增强视频去模糊 SEVD"]
        direction TB
        E["随机清晰线索移除 RSCR<br/>清晰帧随机换成相邻模糊帧"] --> F["监督信息选择 SIS<br/>对齐清晰帧与模型去模糊输出取优"]
    end
    A --> B
    D --> E
    F --> G["自约束空间一致性维护 SCSCM<br/>历史模型输出当锚点防漂移"]
    G --> H["去模糊输出"]

关键设计¶

1. 清晰帧选择与对齐：把"天然监督"从手持视频里挖出来

自监督的第一颗扣子是找到可信的清晰帧并精确对齐——选错或对歪，后面所有自训练都会被污染。SelfHVD 用图像拉普拉斯的方差 \(v_l(\mathbf{I})\) 衡量清晰度（纹理越锐方差越大），再用 Otsu 自动定阈值省去人工调参；同时把视频按每段 20 帧切块，强制清晰帧在时间轴上均匀分布，避免某一段全靠插值。挑出清晰帧 \(\mathbf{S}\) 后用 SEA-RAFT 光流把它 warp 到目标模糊帧 \(\mathbf{B}_i\) 的位置得到 \(\mathbf{S}_{j\to i}\)，并配一对掩码——不确定性掩码 \(\mathbf{M}_{uncer}\) 滤掉光流置信度低的像素、遮挡掩码 \(\mathbf{M}_{occ}\) 滤掉前后景遮挡区，让监督只落在对齐可靠的地方。这套流程的选帧准确率在 GoProShake 上 96.77%、HVD 上 91.88%，说明"天然清晰帧"确实是廉价又可靠的监督来源。

2. 自增强视频去模糊（SEVD）：突破"清晰帧即上限"的天花板

直接拿清晰帧当监督有个硬伤——模型最好也就学成那帧的样子，而手持视频里的清晰帧本身往往也不够锐、还碰不到物体运动模糊。SEVD 让模型用自己的输出造更难的训练对来自我超越，分两步：随机清晰线索移除（RSCR）把输入里的清晰帧随机换成相邻模糊帧，得到线索更少的退化视频 \(\tilde{\mathbf{B}}\)，逼模型在信息更稀的条件下复原；监督信息选择（SIS）则在两路候选——对齐清晰帧 \(\mathbf{S}_{j\to i}\) 与原始完整视频的去模糊输出 \(\mathcal{D}(\mathbf{B})_k\)——之间挑更优的当 \(\tilde{\mathbf{B}}\) 的监督：当对齐清晰帧没被 warp 过度失真且确实更锐时用它，否则改用模型自己的去模糊结果（并 stop gradient 防止自我强化噪声）。因为监督上界不再是某一帧而是"模型当前能产出的最好结果"，模型得以越过输入中最清晰帧的质量，还能借跨帧线索处理单帧清晰帧覆盖不到的物体运动模糊。

3. 自约束空间一致性维护（SCSCM）：堵住对齐误差累积成的空间漂移

光流对齐不可能像素级完美，这些微小偏差会在长期自训练里一点点累积，让输出相对输入整体平移、内容"飘"掉。作者基于信息瓶颈理论观察到一个可利用的现象：训练早期模型还能很好保持输入输出的空间一致性，漂移是后期才显现的。SCSCM 据此把第 \(e\) 次迭代的历史模型参数 \(\Theta_{\mathcal{D}_e}\) 的输出冻结下来当辅助锚点，约束当前输出向它对齐：

\[\mathcal{L}_{scscm} = \|\tilde{\mathbf{R}}_i - sg(\mathbf{R}_k^e)\|_1\]

其中 \(sg(\cdot)\) 表示 stop gradient。等于是拿"还没漂的早期自己"当正则项把"正在漂的现在"拉回来，既不需要额外标注，又精准针对漂移这个自训练特有的失效模式。

损失函数 / 训练策略¶

总损失由三项 L1 构成：掩码加权的重建损失 \(\mathcal{L}_{rec}\)（只在对齐可靠区监督清晰帧）、SEVD 的条件选择损失 \(\mathcal{L}_{sevd}\)（监督取 SIS 选出的更优一路）、以及历史模型约束的 \(\mathcal{L}_{scscm}\)（维持空间一致性）。三者共同把"挑清晰帧—自增强—防漂移"的闭环串成一个可端到端训练的目标。

实验关键数据¶

主实验¶

数据集	指标	SelfHVD	Ren et al.	DaDeblur	提升
GoProShake	PSNR	最优	次优	-	显著提升
HVD (真实)	视觉质量	最优	-	次优	明显更清晰

消融实验¶

配置	关键指标	说明
Full SelfHVD	最优	完整模型
仅清晰帧监督	基础水平	上限受限于清晰帧质量
+SEVD	显著提升	自增强突破上限
+SCSCM	进一步提升	防止空间漂移
不确定性+遮挡掩码	优于无掩码	排除错误对齐区域

关键发现¶

SEVD能让模型超越输入视频中最清晰帧的质量，是最关键的贡献。
SCSCM在训练后期尤为重要，没有它模型会逐渐出现空间漂移。
该方法对物体运动模糊也有一定的修复能力，因为SEVD利用了跨帧的清晰信息。

亮点与洞察¶

自监督的闭环设计非常巧妙：清晰帧→模型→更好的监督→更好的模型。
信息瓶颈理论的实用化：利用训练早期空间一致性好的观察设计SCSCM，理论指导实践。
方法对去模糊网络架构是通用的，可适配多种backbone。

局限与展望¶

依赖视频中存在足够的清晰帧，对全程严重模糊的视频不适用。
光流模型的准确性仍是瓶颈，复杂运动场景的对齐可能不准确。
未来可探索与基于扩散模型的去模糊方法结合。

评分¶

新颖性: ⭐⭐⭐⭐⭐ SEVD自增强训练和SCSCM空间一致性维护都是创新贡献
实验充分度: ⭐⭐⭐⭐ 合成+真实数据集验证，消融完整
写作质量: ⭐⭐⭐⭐ 方法动机清晰，逻辑链条完整
价值: ⭐⭐⭐⭐ 解决了手持视频去模糊的实际痛点