Unrolled Decomposed Unpaired Learning for Controllable Low-Light Video Enhancement¶

会议: ECCV 2024
arXiv: 2408.12316
代码: 有
领域: 图像恢复
关键词: 低光视频增强, 无配对学习, 深度展开, 时序一致性, 人类感知反馈

一句话总结¶

提出 UDU-Net，将低光视频增强建模为 MAP 优化问题并展开为深度网络，通过 Intra/Inter 子网分别处理空间（光照）和时序（一致性）退化，支持无配对训练和人类感知反馈的可控增强。

研究背景与动机¶

低光视频增强面临三重挑战：

配对数据获取困难：相比静态图像，获取运动场景下的低光/正常光配对视频更加困难，使得无配对学习成为必要的技术路线

时空退化交织：噪声、曝光不足和对比度不均在空间域中与时序一致性需求交织在一起

过曝/欠曝问题：仅学习分布对齐的方法缺少像素级约束和人类感知反馈，容易导致曝光异常

现有方法的局限： - 图像增强方法直接应用于视频会忽略帧间时序上下文，导致增强结果不一致 - 深度展开方法在低光增强中已有探索（如 Retinex-inspired），但存在模块分离训练收敛局部最优、未能正确建模反射率-光照关系等问题 - 尚无方法在深度展开架构中同时解决低光视频的空间和时序退化

方法详解¶

整体框架¶

UDU-Net 基于 MAP 估计框架，将低光视频增强建模为：

\[\hat{x} = \arg\min_x \frac{1}{2}\|y - Ax\|^2 + \lambda_s J_s(x) + \lambda_t J_t(x)\]

通过 ADMM 分解为三个子问题，展开为级联的 Intra 子网（单帧增强器）和 Inter 子网（多帧增强器），以阶段式方式从空间和时序两个视角逐步优化。

阶段	子网	功能	关键技术
Stage k	Intra (a)	粗糙光照估计	从无配对专家修图数据学习光照分布
Stage k	Inter (b)	时序平滑学习	3D 卷积 + 光流对齐 + 掩码机制
Stage k+1	Intra (c)	精细光照优化	人类感知反馈引导的可控增强
Stage k+1	Inter (d)	时序细节补偿	同 Inter (b)，进一步时序精化

关键设计¶

1. Intra 子网 — 空间先验: 无配对修图光照

Stage k：使用 MIT-Adobe FiveK 数据集（Expert C 修图版本）作为无配对数据源，通过对抗学习让增强结果匹配专家修图的光照分布
损失包含：语义自监督损失（VGG 特征匹配）、内容自监督损失（多尺度 L1）、Relativistic Average HingeGAN 判别器

2. 人类感知反馈机制

Stage k+1 引入可控光照调整： - 通过 gamma 校正和线性缩放生成目标帧：\(m_i^{k+1} = \beta \times (\alpha \times \tilde{x}_i^{k+1})^\gamma\) - 参数从 U(1.00, 1.10) 均匀分布中采样 - 使用 BRISQUE 无参考质量评估模型模拟人类视觉系统反馈 - 自动选择 BRISQUE 分数最低（质量最好）的版本作为优化目标

3. Inter 子网 — 时序先验: 时序线索探索

使用预训练 RAFT 光流模型估计帧间运动，训练时对其微调
第一阶段：3D 卷积聚合 5 个对齐的邻近帧，估计无噪声结构信号 s_t
第二阶段：基于结构信号 s_t 和邻近帧，估计补偿细节残差
引入软掩码 M_t 平衡噪声抑制和纹理保留

4. 三维噪声抑制策略

空间域对抗学习：通过无配对数据让模型减少生成帧中的噪声
时序一致性学习：对齐并融合邻近帧以进一步降噪
掩码机制：基于结构信号差异的指数函数掩码，参数 ω 控制纹理-噪声平衡

损失函数 / 训练策略¶

Intra 子网损失（Stage k）： - 语义自监督损失 L_semantic-G：VGG 特征的 L2 距离 - 内容自监督损失 L_content-G：3 尺度 L1 损失 - 对抗损失：Relativistic Average HingeGAN

Intra 子网损失（Stage k+1）： - 内容自监督损失：与人类感知反馈目标的 L1 距离

Inter 子网损失： - 光流损失 L_flow-R：对齐帧与当前帧的 L1 距离 - 时序内容损失 L_content-T：结构信号约束 + 掩码加权的帧间一致性 L1 损失

实验关键数据¶

主实验（表格）¶

SDSD 数据集上的定量结果（无参考方法对比）：

方法	Outdoor PSNR↑	Outdoor SSIM↑	Outdoor warp↓	Indoor PSNR↑	Indoor SSIM↑
EnlightenGAN	18.63	0.5399	4.49	19.59	0.5874
CLIP-LIT	20.88	0.5872	3.36	19.08	0.4582
SRIE	21.89	0.6288	2.74	15.78	0.6294
UDU-Net (Ours)	23.94	0.7446	0.24	22.41	0.7368
SDSDNet (监督)*	24.30	0.7445	0.95	27.03	0.7788

消融实验（表格）¶

配置	PSNR	SSIM	warp
Ours-v1 (仅 Intra-a)	基础	基础	基础
Ours-v2 (+Inter-b)	提升	提升	显著降低
Ours-v3 (+Intra-c)	进一步提升	进一步提升	降低
Default (+Inter-d +人类感知)	最优	最优	最优
Default w/o H (无人类感知)	略低	略低	略低

关键发现¶

UDU-Net 在 SDSD 室外场景上 PSNR 达到 23.94 dB，比第二好的无参考方法 SRIE 提升 2.05 dB
时序质量指标 warp error 仅 0.24，远低于第二好方法（SRIE 的 2.74），展现了卓越的时序一致性
在室外场景上达到了与监督方法 SDSDNet 可比甚至略优的 SSIM（0.7446 vs 0.7445）
人类感知反馈机制有效抑制了过曝/欠曝，BRISQUE 分数引导使增强结果更符合人类视觉偏好
每个组件（Intra-a, Inter-b, Intra-c, Inter-d）都对最终性能有正向贡献

亮点与洞察¶

展开方法的创新应用：首次将 MAP 优化的展开架构用于低光视频增强，同时建模空间和时序约束
无配对 + 可控：不依赖成对数据的同时，通过人类感知反馈实现可控增强，这是实用性极强的设计
噪声抑制的系统化：从空间域（对抗学习）、时序域（帧融合）和掩码机制三个维度协同降噪
BRISQUE 作为代理人类视觉：使用无参考质量评估模型模拟人类感知，自动调整目标光照水平
端到端训练：避免了模块分离训练导致的局部最优问题

局限与展望¶

对相机运动剧烈或遮挡严重的场景，光流估计可能不准确
人类感知反馈依赖 BRISQUE 模型，该模型本身有局限
MIT-Adobe FiveK 的 expert-retouched 风格可能不适用于所有应用场景
gamma 校正参数范围 U(1.00, 1.10) 是经验设定，可能需要针对不同场景调整
未与最新的扩散模型方法对比

评分¶

维度	分数 (1-5)
新颖性	4
理论深度	4
实验充分度	4
实用性	4
写作质量	3.5
总体	4