CWNet: Causal Wavelet Network for Low-Light Image Enhancement¶
会议: ICCV 2025
arXiv: 2507.10689
代码: CWNet(论文提及,具体链接未给出)
领域: 图像修复 / 低光增强
关键词: 低光图像增强, 因果推理, 小波变换, 状态空间模型, CLIP语义一致性
一句话总结¶
提出因果小波网络CWNet,通过结构因果模型将低光增强中的语义信息视为因果因子、亮度/颜色退化视为非因果因子,结合小波变换骨干网络实现频域特征的精细化恢复。
研究背景与动机¶
传统低光图像增强(LLIE)方法主要关注均匀亮度调整,忽略了实例级语义信息和不同频率特征的内在特性。现有频域方法将高频和低频特征统一处理,限制了增强效果。同时,许多方法在增强亮度的同时难以保持颜色和语义一致性,导致视觉上不自然或语义不准确的结果。
本文从两个关键问题出发:(1)如何在改善照明条件的同时确保颜色和语义信息的一致性?(2)如何建立充分利用频域特征的鲁棒模型?现有基于CLIP的方法只关注全局语义一致性,缺乏实例级一致性保证;小波方法没有充分利用频域的独特特性。
方法详解¶
整体框架¶
CWNet基于结构因果模型(SCM)构建,将低光增强任务建模为因果推理问题。整体架构采用U-Net形式,包含上采样/下采样层和层级特征恢复块(HFRB),HFRB由特征提取模块(FE)、高频增强块(HFEB)和低频增强块(LFEB)三个核心组件组成。
关键设计¶
-
因果推理分析与度量学习(Causal Inference): 核心思路是将低光场景中的语义信息\(\mathcal{S}\)定义为因果因子,颜色和亮度异常\(\mathcal{U}\)定义为非因果因子。通过两种"有意义且无害"的干预方式获取非因果因子:光照退化干预 \(I_l = \frac{I}{L}L^{\gamma} + \varepsilon\)(基于物理光照模型)和颜色异常干预(色调/饱和度/RGB通道偏移)。在全局层面,采用因果引导的度量学习策略:处理后的低光图像作为锚点,对应正常光照图像作为正样本,不同场景的反事实扰动样本作为负样本。损失函数为 \(\mathcal{L}_{ca} = \frac{\mathcal{L}_1(F_p, \hat{F})}{\xi(\sum_l \mathcal{L}_1(F_l, \hat{F}) + \sum_c \mathcal{L}_1(F_c, \hat{F}))}\)。这种设计动机在于:迫使模型学习光照不变的语义特征,从退化因素中分离出真正的语义内容。
-
实例级CLIP语义损失(Instance-Level CLIP Semantic Loss): 利用预训练的HRNet提取语义实例分割图,将增强后的图像分割成多个子实例图像\(I_{seg}^k\),然后通过CLIP编码器计算每个实例与文本提示("low light"/"normal light")的语义一致性概率 \(\hat{y} = \frac{1}{K}\sum_{k=1}^{K}\frac{e^{\cos(\Phi_{image}(I_{seg}^k), \Phi_{text}(T_{low}))}}{...}\)。使用交叉熵损失优化语义一致性。动机在于ATE分析显示不同语义区域对退化的敏感度差异显著,全局一致性不足以保证局部语义完整性。
-
小波变换骨干网络(Wavelet-based Backbone): FE模块通过小波变换将输入分解为\(\{L, H, V, D\}\)四个频率子带。低频分量用WTConv(大感受野无额外参数复杂度)提取,高频分量用深度可分离卷积加方向对齐卷积(H-Conv/V-Conv/D-Conv)提取,并通过低频到高频的信息补偿。HFEB基于Mamba设计了HF-Mamba模块,包含三个方向对齐的2D-SSM:H-2D-SSM处理水平高频、V-2D-SSM处理垂直高频、D-2D-SSM处理对角高频,而非统一扫描。LFEB基于快速傅里叶卷积(FFC)处理低频分量,利用两个残差块提供全局上下文感知的大感受野特征增强。
损失函数 / 训练策略¶
总损失由五部分加权组合: $\(\mathcal{L}_{total} = \lambda_1\mathcal{L}_2 + \lambda_2\mathcal{L}_{ssim} + \lambda_3\mathcal{L}_{per} + \lambda_4\mathcal{L}_{ca} + \lambda_5\mathcal{L}_{sem}\)$ 权重设置为\([1.0, 0.3, 0.2, 0.01, 0.01]\)。使用Adam优化器(\(\beta_1=0.9, \beta_2=0.99\)),初始学习率\(4\times10^{-4}\),训练\(3\times10^5\)次迭代,批量大小8,输入随机裁剪为\(256\times256\)。
实验关键数据¶
主实验¶
| 数据集 | 指标 | CWNet | 之前SOTA | 提升 |
|---|---|---|---|---|
| LOL-v1 | PSNR/SSIM/LPIPS | 23.60/0.8496/0.0648 | Wave-Mamba: 22.76/0.8419/0.0791 | +0.84/+0.0077/-0.0143 |
| LOL-v2-Real | PSNR/SSIM/LPIPS | 27.39/0.9005/0.0383 | Wave-Mamba: 27.87/0.8935/0.0451 | SSIM+0.007/LPIPS-0.007 |
| LOL-v2-Syn | PSNR/SSIM/LPIPS | 25.50/0.9362/0.0195 | RetinexMamba: 25.89/0.9346/0.0389 | LPIPS大幅降低 |
| LSRW-Huawei | PSNR/SSIM/LPIPS | 21.50/0.6397/0.1562 | DMFourLLIE: 21.09/0.6328/0.1804 | +0.41/+0.007/-0.024 |
模型参数仅1.23M,FLOPs 11.3G,远小于MIRNet(31.79M)和SNR-Aware(39.12M)。
消融实验¶
| 配置 | PSNR | SSIM | LPIPS | 说明 |
|---|---|---|---|---|
| CWNet完整 | 21.53 | 0.6423 | 0.1631 | 基线 |
| w/o 因果推理 | 20.87 | 0.6375 | 0.1781 | PSNR下降0.66 |
| w/o FE | 20.98 | 0.6387 | 0.1804 | 频域提取缺失 |
| w/o HFEB | 20.58 | 0.6317 | 0.1903 | 高频增强缺失 |
| w/o LFEB | 20.41 | 0.6302 | 0.1985 | 低频增强最关键 |
| WTConv→Conv | 21.42 | 0.6415 | 0.1690 | 频域卷积优于标准卷积 |
| HF-Mamba→VMamba | 21.20 | 0.6394 | 0.1735 | 方向对齐SSM优于通用SSM |
| 语义图→全局特征 | 21.48 | 0.6417 | 0.1652 | 实例级指导有效 |
关键发现¶
- LFEB移除导致最大性能下降(PSNR降至20.41),表明低频处理在双分支架构中最为关键
- 因果推理机制贡献显著(PSNR降0.66),验证了因果视角对语义/退化分离的有效性
- 在LOL-v1训练、LOL-v2-Real测试的跨数据集场景中SSIM达0.9005,泛化能力突出
- 模型在极低参数量(1.23M)下实现SOTA,效率优势明显
亮点与洞察¶
- 将因果推理引入低光增强是一个新颖且有说服力的视角,通过SCM清晰地定义了因果/非因果因子
- 实例级CLIP语义损失比全局CLIP损失更精细,ATE分析为其提供了令人信服的理论支撑
- HF-Mamba的方向对齐扫描策略与小波高频分量的物理含义天然匹配(水平/垂直/对角),设计优雅
- 模型极其轻量(1.23M参数),在性能和效率之间取得了极好的平衡
局限与展望¶
- 面对复合退化(如低光+模糊+雾霾)时恢复质量欠佳
- 因果干预策略依赖于特定的退化模型假设,可能不完全覆盖真实世界的退化类型
- CLIP和HRNet等预训练模型的引入增加了推理时的额外计算开销
相关工作与启发¶
- 因果推理在低级视觉任务中的应用仍然较少,本文的SCM建模范式可推广到其他图像恢复任务
- 方向对齐的SSM扫描策略可扩展到其他需要方向感知的视觉任务中
- 频域(小波/傅里叶)与因果推理的结合为图像增强提供了新的设计范式
评分¶
- 新颖性: ⭐⭐⭐⭐ 因果推理+小波变换的组合在LLIE中是新颖的
- 实验充分度: ⭐⭐⭐⭐ 四个数据集、完整消融、跨数据集泛化
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,因果框架的阐述层层递进
- 价值: ⭐⭐⭐⭐ 轻量高效且性能SOTA,实用价值高