Unrolled Decomposed Unpaired Learning for Controllable Low-Light Video Enhancement¶
会议: ECCV 2024
arXiv: 2408.12316
代码: 有
领域: 图像恢复
关键词: 低光视频增强, 无配对学习, 深度展开, 时序一致性, 人类感知反馈
一句话总结¶
提出 UDU-Net,将低光视频增强建模为 MAP 优化问题并展开为深度网络,通过 Intra/Inter 子网分别处理空间(光照)和时序(一致性)退化,支持无配对训练和人类感知反馈的可控增强。
研究背景与动机¶
低光视频增强面临三重挑战:
配对数据获取困难:相比静态图像,获取运动场景下的低光/正常光配对视频更加困难,使得无配对学习成为必要的技术路线
时空退化交织:噪声、曝光不足和对比度不均在空间域中与时序一致性需求交织在一起
过曝/欠曝问题:仅学习分布对齐的方法缺少像素级约束和人类感知反馈,容易导致曝光异常
现有方法的局限: - 图像增强方法直接应用于视频会忽略帧间时序上下文,导致增强结果不一致 - 深度展开方法在低光增强中已有探索(如 Retinex-inspired),但存在模块分离训练收敛局部最优、未能正确建模反射率-光照关系等问题 - 尚无方法在深度展开架构中同时解决低光视频的空间和时序退化
方法详解¶
整体框架¶
UDU-Net 基于 MAP 估计框架,将低光视频增强建模为:
通过 ADMM 分解为三个子问题,展开为级联的 Intra 子网(单帧增强器)和 Inter 子网(多帧增强器),以阶段式方式从空间和时序两个视角逐步优化。
| 阶段 | 子网 | 功能 | 关键技术 |
|---|---|---|---|
| Stage k | Intra (a) | 粗糙光照估计 | 从无配对专家修图数据学习光照分布 |
| Stage k | Inter (b) | 时序平滑学习 | 3D 卷积 + 光流对齐 + 掩码机制 |
| Stage k+1 | Intra (c) | 精细光照优化 | 人类感知反馈引导的可控增强 |
| Stage k+1 | Inter (d) | 时序细节补偿 | 同 Inter (b),进一步时序精化 |
关键设计¶
1. Intra 子网 — 空间先验: 无配对修图光照
- Stage k:使用 MIT-Adobe FiveK 数据集(Expert C 修图版本)作为无配对数据源,通过对抗学习让增强结果匹配专家修图的光照分布
- 损失包含:语义自监督损失(VGG 特征匹配)、内容自监督损失(多尺度 L1)、Relativistic Average HingeGAN 判别器
2. 人类感知反馈机制
Stage k+1 引入可控光照调整: - 通过 gamma 校正和线性缩放生成目标帧:\(m_i^{k+1} = \beta \times (\alpha \times \tilde{x}_i^{k+1})^\gamma\) - 参数从 U(1.00, 1.10) 均匀分布中采样 - 使用 BRISQUE 无参考质量评估模型模拟人类视觉系统反馈 - 自动选择 BRISQUE 分数最低(质量最好)的版本作为优化目标
3. Inter 子网 — 时序先验: 时序线索探索
- 使用预训练 RAFT 光流模型估计帧间运动,训练时对其微调
- 第一阶段:3D 卷积聚合 5 个对齐的邻近帧,估计无噪声结构信号 s_t
- 第二阶段:基于结构信号 s_t 和邻近帧,估计补偿细节残差
- 引入软掩码 M_t 平衡噪声抑制和纹理保留
4. 三维噪声抑制策略
- 空间域对抗学习:通过无配对数据让模型减少生成帧中的噪声
- 时序一致性学习:对齐并融合邻近帧以进一步降噪
- 掩码机制:基于结构信号差异的指数函数掩码,参数 ω 控制纹理-噪声平衡
损失函数 / 训练策略¶
Intra 子网损失(Stage k): - 语义自监督损失 L_semantic-G:VGG 特征的 L2 距离 - 内容自监督损失 L_content-G:3 尺度 L1 损失 - 对抗损失:Relativistic Average HingeGAN
Intra 子网损失(Stage k+1): - 内容自监督损失:与人类感知反馈目标的 L1 距离
Inter 子网损失: - 光流损失 L_flow-R:对齐帧与当前帧的 L1 距离 - 时序内容损失 L_content-T:结构信号约束 + 掩码加权的帧间一致性 L1 损失
实验关键数据¶
主实验(表格)¶
SDSD 数据集上的定量结果(无参考方法对比):
| 方法 | Outdoor PSNR↑ | Outdoor SSIM↑ | Outdoor warp↓ | Indoor PSNR↑ | Indoor SSIM↑ |
|---|---|---|---|---|---|
| EnlightenGAN | 18.63 | 0.5399 | 4.49 | 19.59 | 0.5874 |
| CLIP-LIT | 20.88 | 0.5872 | 3.36 | 19.08 | 0.4582 |
| SRIE | 21.89 | 0.6288 | 2.74 | 15.78 | 0.6294 |
| UDU-Net (Ours) | 23.94 | 0.7446 | 0.24 | 22.41 | 0.7368 |
| SDSDNet (监督)* | 24.30 | 0.7445 | 0.95 | 27.03 | 0.7788 |
消融实验(表格)¶
| 配置 | PSNR | SSIM | warp |
|---|---|---|---|
| Ours-v1 (仅 Intra-a) | 基础 | 基础 | 基础 |
| Ours-v2 (+Inter-b) | 提升 | 提升 | 显著降低 |
| Ours-v3 (+Intra-c) | 进一步提升 | 进一步提升 | 降低 |
| Default (+Inter-d +人类感知) | 最优 | 最优 | 最优 |
| Default w/o H (无人类感知) | 略低 | 略低 | 略低 |
关键发现¶
- UDU-Net 在 SDSD 室外场景上 PSNR 达到 23.94 dB,比第二好的无参考方法 SRIE 提升 2.05 dB
- 时序质量指标 warp error 仅 0.24,远低于第二好方法(SRIE 的 2.74),展现了卓越的时序一致性
- 在室外场景上达到了与监督方法 SDSDNet 可比甚至略优的 SSIM(0.7446 vs 0.7445)
- 人类感知反馈机制有效抑制了过曝/欠曝,BRISQUE 分数引导使增强结果更符合人类视觉偏好
- 每个组件(Intra-a, Inter-b, Intra-c, Inter-d)都对最终性能有正向贡献
亮点与洞察¶
- 展开方法的创新应用:首次将 MAP 优化的展开架构用于低光视频增强,同时建模空间和时序约束
- 无配对 + 可控:不依赖成对数据的同时,通过人类感知反馈实现可控增强,这是实用性极强的设计
- 噪声抑制的系统化:从空间域(对抗学习)、时序域(帧融合)和掩码机制三个维度协同降噪
- BRISQUE 作为代理人类视觉:使用无参考质量评估模型模拟人类感知,自动调整目标光照水平
- 端到端训练:避免了模块分离训练导致的局部最优问题
局限与展望¶
- 对相机运动剧烈或遮挡严重的场景,光流估计可能不准确
- 人类感知反馈依赖 BRISQUE 模型,该模型本身有局限
- MIT-Adobe FiveK 的 expert-retouched 风格可能不适用于所有应用场景
- gamma 校正参数范围 U(1.00, 1.10) 是经验设定,可能需要针对不同场景调整
- 未与最新的扩散模型方法对比
相关工作与启发¶
- 深度展开方法:PnP、ADMM 框架启发了将优化问题展开为可训练深度网络的思路
- EnlightenGAN:无配对增强的先驱,使用双判别器,但不考虑时序
- StableLLVE:使用光流模拟动态场景以增强时序稳定性
- Zero-DCE:将增强形式化为曲线估计问题
- Retinex 分解在展开框架中的局限性为 UDU-Net 设计提供了动机
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 新颖性 | 4 |
| 理论深度 | 4 |
| 实验充分度 | 4 |
| 实用性 | 4 |
| 写作质量 | 3.5 |
| 总体 | 4 |