Bilevel Layer-Positioning LoRA for Real Image Dehazing¶

会议: CVPR 2026
arXiv: 2603.10872
代码: GitHub
领域: 模型压缩
关键词: 图像去雾, LoRA, CLIP, 双层优化, 无监督域适配

一句话总结¶

利用CLIP跨模态能力将去雾重构为语义对齐问题（H2C损失），并通过双层优化自动搜索最佳LoRA注入层（BiLaLoRA），实现即插即用的高效合成到真实域去雾适配。

研究背景与动机¶

深度学习去雾模型在合成数据上表现优异，但合成-真实域差距导致真实场景性能大幅下降。两个核心痛点亟需解决：(1) 真实场景没有配对清晰图作为ground truth，缺少有效无监督优化信号；(2) 全模型微调代价高昂且灵活性差。

作者通过分析发现了一个关键现象：不同模型架构中，域差距导致的"性能瓶颈层"位置不同且动态变化——在MSBDN中是编码器最后两个卷积块，在DEA中是编码器第三个块。固定选择LoRA注入层是次优的，需要一种模型无关的自动定位方法。

这两个问题相互耦合：有效的无监督损失是域适配的前提，而高效的参数微调是实用部署的需要。本文提出的H2C损失和BiLaLoRA策略分别解决这两个痛点。

方法详解¶

整体框架¶

以预训练去雾模型（如DEA）为基础，通过H2C损失+BiLaLoRA在真实雾天图像上做无监督域适配。分两阶段：(1) 双层定位——联合优化LoRA权重ω和门控参数α以排序候选层重要性；(2) LoRA微调——选取top-k层固定后仅优化ω。

关键设计¶

H2C文本引导损失:
- 功能：在无配对清晰图的条件下为去雾模型提供无监督优化信号
- 核心思路：利用CLIP图像/文本编码器，定义正向提示"a clear photo"和负向提示"a photo with haze"。计算去雾前后的图像特征差 \(\Delta V_{img} = V_{out} - V_{in}\) 与文本方向差 \(\Delta T_{text} = T_{pos} - T_{neg}\) 的余弦相似度作为损失：\(L_{H2C} = 1 - \cos(\Delta V_{img}, \Delta T_{text})\)
- 设计动机：正负提示的协同约束保证去雾方向性——单用正向导致色彩失真，单用负向导致过度去雾。夜间场景通过修改提示为"nighttime haze"即可适配
BiLaLoRA双层优化:
- 功能：自动搜索最佳LoRA注入层，无需人工选择
- 核心思路：每个候选层配一个可学习门控参数 \(\alpha\)（sigmoid约束到(0,1)），通过双层优化联合学习层选择（上层：验证集最大化性能）和LoRA权重（下层：训练集最小化损失）。用rank-one外积近似Hessian简化超梯度计算为仅需一阶导数
- 设计动机：域差距瓶颈层因模型架构和场景特性而异，单层优化无法捕获层选择和权重间的层级依赖关系
即插即用多域适配:
- 功能：支持快速切换不同目标域（白天/夜间）
- 核心思路：利用LoRA的天然特性，为不同场景各学一个轻量adapter，无需重新全量微调。白天500张+夜间100张真实雾图即可完成适配
- 设计动机：实际去雾场景多样，需要灵活切换而非一个通用模型

损失函数 / 训练策略¶

预训练阶段用L1 loss（合成数据有GT）。域适配阶段仅用H2C loss（无GT）。LoRA rank=8, scaling=2, top-3层。lr=1e-6, Adam, 256×256裁剪+旋转翻转增强。

实验关键数据¶

主实验¶

数据集	指标	BiLaLoRA	之前SOTA	提升
RTTS	FADE↓	0.752	0.845(PHATNet)	-11%
RTTS	MUSIQ↑	61.77	59.61(IPC)	+2.16
URHI	MUSIQ↑	63.52	62.22(IPC)	+1.30
Fattal	MUSIQ↑	67.92	67.58(IPC)	+0.34

消融实验¶

配置	关键指标	说明
全量微调 vs BiLaLoRA	64.43 vs 64.40	性能几乎持平，但训练时间4.2h→0.94h（-77.7%）
双层优化 vs 朴素联合	64.40 vs 64.07	双层验证集解耦层选择与权重，泛化更好
自动定位 vs 手动选层	64.40 vs 63.31	自动始终优于经验选择
H2C去掉正向提示	色彩失真	显著影响输出颜色质量
H2C去掉负向提示	过度去雾	模型过度"清理"导致伪影

关键发现¶

跨模型验证：在MSBDN/DeHamer/ConvIR/DEA四种架构上均有效，证明模型无关性
跨域验证：从ITS/OTS/Haze4K/RIDCP四种合成预训练出发均能显著提升
最佳层数k=3，超过3层边际收益递减，额外参数仅+3%

亮点与洞察¶

CLIP作为无监督去雾损失的"裁判"是巧妙的跨模态应用——通过正负文本方向差定义语义轨迹，可推广到其他恢复任务。双层优化自动搜索LoRA层将PEFT从人工选层决策中解放出来。

局限与展望¶

无参考评估指标（FADE/MUSIQ）可靠性有限，缺少配对全参考评估
仅在去雾任务验证，未探索去雨/去噪等扩展
top-k固定为3，不同任务/架构可能需不同k
H2C文本提示设计较简单，更复杂的prompt engineering可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐ H2C损失设计巧妙，双层优化定位LoRA层是有价值的新视角
实验充分度: ⭐⭐⭐⭐ 跨模型、跨域、消融实验全面
写作质量: ⭐⭐⭐⭐ 动机清晰，推导完整
价值: ⭐⭐⭐ 对真实图像去雾和PEFT有实用价值，但领域相对小众