CWNet: Causal Wavelet Network for Low-Light Image Enhancement¶

会议: ICCV 2025
arXiv: 2507.10689
代码: CWNet（论文提及，具体链接未给出）
领域: 图像修复 / 低光增强
关键词: 低光图像增强, 因果推理, 小波变换, 状态空间模型, CLIP语义一致性

一句话总结¶

提出因果小波网络CWNet，通过结构因果模型将低光增强中的语义信息视为因果因子、亮度/颜色退化视为非因果因子，结合小波变换骨干网络实现频域特征的精细化恢复。

研究背景与动机¶

传统低光图像增强（LLIE）方法主要关注均匀亮度调整，忽略了实例级语义信息和不同频率特征的内在特性。现有频域方法将高频和低频特征统一处理，限制了增强效果。同时，许多方法在增强亮度的同时难以保持颜色和语义一致性，导致视觉上不自然或语义不准确的结果。

本文从两个关键问题出发：（1）如何在改善照明条件的同时确保颜色和语义信息的一致性？（2）如何建立充分利用频域特征的鲁棒模型？现有基于CLIP的方法只关注全局语义一致性，缺乏实例级一致性保证；小波方法没有充分利用频域的独特特性。

方法详解¶

整体框架¶

CWNet基于结构因果模型（SCM）构建，将低光增强任务建模为因果推理问题。整体架构采用U-Net形式，包含上采样/下采样层和层级特征恢复块（HFRB），HFRB由特征提取模块（FE）、高频增强块（HFEB）和低频增强块（LFEB）三个核心组件组成。

关键设计¶

因果推理分析与度量学习（Causal Inference）: 核心思路是将低光场景中的语义信息$\mathcal{S}$定义为因果因子，颜色和亮度异常$\mathcal{U}$定义为非因果因子。通过两种"有意义且无害"的干预方式获取非因果因子：光照退化干预 $I_l = \frac{I}{L}L^{\gamma} + \varepsilon$（基于物理光照模型）和颜色异常干预（色调/饱和度/RGB通道偏移）。在全局层面，采用因果引导的度量学习策略：处理后的低光图像作为锚点，对应正常光照图像作为正样本，不同场景的反事实扰动样本作为负样本。损失函数为 $\mathcal{L}_{ca} = \frac{\mathcal{L}_1(F_p, \hat{F})}{\xi(\sum_l \mathcal{L}_1(F_l, \hat{F}) + \sum_c \mathcal{L}_1(F_c, \hat{F}))}$。这种设计动机在于：迫使模型学习光照不变的语义特征，从退化因素中分离出真正的语义内容。
实例级CLIP语义损失（Instance-Level CLIP Semantic Loss）: 利用预训练的HRNet提取语义实例分割图，将增强后的图像分割成多个子实例图像$I_{seg}^k$，然后通过CLIP编码器计算每个实例与文本提示（"low light"/"normal light"）的语义一致性概率 $\hat{y} = \frac{1}{K}\sum_{k=1}^{K}\frac{e^{\cos(\Phi_{image}(I_{seg}^k), \Phi_{text}(T_{low}))}}{...}$。使用交叉熵损失优化语义一致性。动机在于ATE分析显示不同语义区域对退化的敏感度差异显著，全局一致性不足以保证局部语义完整性。
小波变换骨干网络（Wavelet-based Backbone）: FE模块通过小波变换将输入分解为$\{L, H, V, D\}$四个频率子带。低频分量用WTConv（大感受野无额外参数复杂度）提取，高频分量用深度可分离卷积加方向对齐卷积（H-Conv/V-Conv/D-Conv）提取，并通过低频到高频的信息补偿。HFEB基于Mamba设计了HF-Mamba模块，包含三个方向对齐的2D-SSM：H-2D-SSM处理水平高频、V-2D-SSM处理垂直高频、D-2D-SSM处理对角高频，而非统一扫描。LFEB基于快速傅里叶卷积（FFC）处理低频分量，利用两个残差块提供全局上下文感知的大感受野特征增强。

损失函数 / 训练策略¶

总损失由五部分加权组合： $$\mathcal{L}_{total} = \lambda_1\mathcal{L}_2 + \lambda_2\mathcal{L}_{ssim} + \lambda_3\mathcal{L}_{per} + \lambda_4\mathcal{L}_{ca} + \lambda_5\mathcal{L}_{sem}$$ 权重设置为$[1.0, 0.3, 0.2, 0.01, 0.01]$。使用Adam优化器（$\beta_1=0.9, \beta_2=0.99$），初始学习率$4\times10^{-4}$，训练$3\times10^5$次迭代，批量大小8，输入随机裁剪为$256\times256$。

实验关键数据¶

主实验¶

数据集	指标	CWNet	之前SOTA	提升
LOL-v1	PSNR/SSIM/LPIPS	23.60/0.8496/0.0648	Wave-Mamba: 22.76/0.8419/0.0791	+0.84/+0.0077/-0.0143
LOL-v2-Real	PSNR/SSIM/LPIPS	27.39/0.9005/0.0383	Wave-Mamba: 27.87/0.8935/0.0451	SSIM+0.007/LPIPS-0.007
LOL-v2-Syn	PSNR/SSIM/LPIPS	25.50/0.9362/0.0195	RetinexMamba: 25.89/0.9346/0.0389	LPIPS大幅降低
LSRW-Huawei	PSNR/SSIM/LPIPS	21.50/0.6397/0.1562	DMFourLLIE: 21.09/0.6328/0.1804	+0.41/+0.007/-0.024

模型参数仅1.23M，FLOPs 11.3G，远小于MIRNet（31.79M）和SNR-Aware（39.12M）。

消融实验¶

配置	PSNR	SSIM	LPIPS	说明
CWNet完整	21.53	0.6423	0.1631	基线
w/o 因果推理	20.87	0.6375	0.1781	PSNR下降0.66
w/o FE	20.98	0.6387	0.1804	频域提取缺失
w/o HFEB	20.58	0.6317	0.1903	高频增强缺失
w/o LFEB	20.41	0.6302	0.1985	低频增强最关键
WTConv→Conv	21.42	0.6415	0.1690	频域卷积优于标准卷积
HF-Mamba→VMamba	21.20	0.6394	0.1735	方向对齐SSM优于通用SSM
语义图→全局特征	21.48	0.6417	0.1652	实例级指导有效

关键发现¶

LFEB移除导致最大性能下降（PSNR降至20.41），表明低频处理在双分支架构中最为关键
因果推理机制贡献显著（PSNR降0.66），验证了因果视角对语义/退化分离的有效性
在LOL-v1训练、LOL-v2-Real测试的跨数据集场景中SSIM达0.9005，泛化能力突出
模型在极低参数量（1.23M）下实现SOTA，效率优势明显

亮点与洞察¶

将因果推理引入低光增强是一个新颖且有说服力的视角，通过SCM清晰地定义了因果/非因果因子
实例级CLIP语义损失比全局CLIP损失更精细，ATE分析为其提供了令人信服的理论支撑
HF-Mamba的方向对齐扫描策略与小波高频分量的物理含义天然匹配（水平/垂直/对角），设计优雅
模型极其轻量（1.23M参数），在性能和效率之间取得了极好的平衡

局限与展望¶

面对复合退化（如低光+模糊+雾霾）时恢复质量欠佳
因果干预策略依赖于特定的退化模型假设，可能不完全覆盖真实世界的退化类型
CLIP和HRNet等预训练模型的引入增加了推理时的额外计算开销

评分¶

新颖性: ⭐⭐⭐⭐ 因果推理+小波变换的组合在LLIE中是新颖的
实验充分度: ⭐⭐⭐⭐ 四个数据集、完整消融、跨数据集泛化
写作质量: ⭐⭐⭐⭐ 逻辑清晰，因果框架的阐述层层递进
价值: ⭐⭐⭐⭐ 轻量高效且性能SOTA，实用价值高