Unpaired Image Deraining Using Reward-Guided Self-Reinforcement Strategy¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 图像恢复 / 图像去雨
关键词: 无监督去雨, 自强化, VLM-IQA, 奖励回收, 伪配对数据

一句话总结¶

针对无监督去雨缺乏配对监督、优化空间不受约束的问题，本文提出 RGSUD：在训练中用 VLM 感知质量评分（DACLIP-IQA）把偶尔冒出的高质量去雨结果"回收"成奖励，再用这些奖励同时改进伪配对数据合成、并构造一个充当数据一致性项的自强化损失，从而把优化空间压紧，在合成/真实配对和真实无配对数据上都取得无监督 SOTA。

研究背景与动机¶

领域现状：图像去雨分两条路。监督方法（MPRNet、Restormer、DRSformer、NeRD-Rain）靠"合成雨图—干净图"配对训练，指标很高；但配对数据多是人工合成的，真实雨的多样性远超合成分布，监督模型迁移到真实场景常常掉得很惨。无监督去雨直接从真实无配对的雨图/干净图里学雨的分布，泛化性更好，但训练难度大得多。

现有痛点：无监督去雨的核心困难是两个域都没有显式约束——你既没有"这张雨图对应的干净图长什么样"的监督，雨退化本身又千变万化，导致优化是"欠约束"的（under-constrained），网络很难收敛，结果忽好忽坏。已有无监督方法（CycleGAN 系、对比学习的 DCD-GAN/NLCL、通道一致性先验的 CSUD）主要靠各种正则项去约束，但和真实干净图的对齐始终是个老大难。

核心矛盾：无监督任务天然缺一个"数据一致性项"（data consistency term），也就是 MAP 框架里 \(\|B-\mathcal{F}_\theta(O)\|^2\) 这一项——没有 ground truth 就写不出来。各方法只能堆正则（对抗损失等价于正则项），但正则给不出明确的优化轨迹，结果就是收敛慢、对齐差。

切入角度：作者从训练曲线里发现一个被忽视的现象（图 1a）——无监督训练过程中会偶尔冒出质量很高的去雨结果，只是它们转瞬即逝、没被利用。这些中间产物其实是一种隐式监督。问题是怎么可靠地识别"哪个中间结果是高质量的"？传统 PSNR 需要 GT 算不了，而图 1b 显示基于视觉语言模型的 DACLIP-IQA 能在无参考情况下给出和人眼一致、能区分退化/去净程度的感知分数。

核心 idea：把强化学习的"奖励引导策略"搬过来——用 VLM-IQA 当裁判，在训练中持续回收（recycle）评分最高的去雨结果作为奖励，再把奖励喂回优化过程：一路用它合成更真的伪配对数据，一路用它构造自强化损失补上缺失的数据一致性项，从而把优化空间"压紧"、推动收敛到高保真去雨结果。

方法详解¶

整体框架¶

RGSUD 是一个 GAN 式无配对去雨框架，由四个组件构成：Derainer（去雨器，用 NAFNet）、DEM（退化估计模块，一个 U-Net + 一个开关）、生成器 G（6 个残差块的 ResNet）、判别器 D（PatchGAN）。整条管线干的事是：拿无配对的干净图 \(B_u\) 和真实雨图 \(O_r\)，先合成伪配对的雨图，再去雨、并用一个奖励池把训练中冒出来的好结果攒下来反哺训练。

数据流核心是 \(B_u\in B \to O^1_u\in O \to B^1_u\in B\)：生成器按真实雨图 \(O_r\) 的雨信息把干净图 \(B_u\) 变成雨图 \(O^1_u\)（即 \(G(B_u, F(O_r))\to O^1_u\)，\(F(\cdot)\) 就是 DEM 提取的退化信息），再用 Derainer 把 \(O^1_u\) 去雨回 \(B^1_u\)。这样 \((B_u, B^1_u)\) 就是一对伪配对，可以直接上 PSNR/SSIM 监督。

训练分两阶段：阶段一（黑色数据流）正常对抗训练，同时"Recycling"持续把高质量去雨结果攒进奖励池，此时奖励从反传图里 detach 掉、不参与梯度；DEM 的开关拨到黑色端点（走 U-Net 提雨信息）。阶段二（黑+橙数据流）在阶段一权重基础上引入自强化约束，DEM 开关拨到橙色端点——直接用奖励当干净特征，奖励也随训练动态更新，直到去雨性能不再提升。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["无配对输入<br/>干净图 Bu + 真实雨图 Or"] --> B["退化估计模块 DEM<br/>提雨信息 F(Or)，开关切换奖励/U-Net"]
    B --> C["生成器 G 合成伪配对<br/>G(Bu,F(Or)) → 伪雨图 O1u"]
    C --> D["Derainer (NAFNet) 去雨<br/>O1u → B1u，可与 Bu 配对监督"]
    D --> E["动态奖励回收<br/>DACLIP-IQA 评分，留高分换低分"]
    E -->|阶段二: 奖励回灌| B
    E --> F["自强化损失 Lre<br/>补数据一致性项，压紧优化空间"]
    F --> G["高保真去雨结果<br/>合成/真实配对 + 真实无配对 SOTA"]

关键设计¶

1. 动态奖励回收机制：用 VLM-IQA 当无参考裁判，把训练中转瞬即逝的好结果攒成奖励池

无监督训练没有 GT，PSNR 这类全参考指标算不了，所以根本没法判断"哪个中间去雨结果质量高、值得留下来"。本文利用预训练 VLM 的零样本 IQA 能力（DACLIP-IQA \(\Psi(\cdot)\)）来打感知分。具体流程（Algorithm 1）：对雨图数据集 \(D_r=\{x_i\}\)，每张图先过 Derainer 得到去雨结果 \(x_i^{rec}=\mathrm{Der}(x_i)\)，再分别对它和奖励池里对应的旧奖励 \(x_i^r\) 打分 \(z_{rec}=\Psi(x_i^{rec})\)、\(z_r=\Psi(x_i^r)\)；若 \(z_{rec}>z_r\) 就用新结果替换池里的旧奖励，否则保留旧的。这样奖励池里始终装着"到目前为止见过的最高质量去雨图"，且随训练动态刷新（图 2b 里 0.65/0.43 被 drop、0.88 替换 0.79 那一幕）。之所以选 DACLIP-IQA 而不是 MUSIQ/NIMA，是因为消融（表 7）显示它对去雨质量的判别最准、带来的 PSNR 最高——奖励质量直接决定整套机制的上限。

2. 退化估计模块 DEM：用奖励当干净特征绕开 U-Net，拿到更准的雨信息去合成伪配对数据

要把干净图 \(B_u\) 染成雨图，得先知道"雨长什么样"。原始做法是把真实雨图 \(O_r\) 喂进 DEM 里的 U-Net，先提一个干净特征、再用残差（雨图减干净特征）算出雨信息 \(F(O_r)\)。问题是 U-Net 提取的干净特征本身就不够准，雨信息也跟着不准，合成的伪雨图质量上不去。本文的关键一招是在阶段二把 DEM 的开关拨到奖励端点：直接拿奖励池里的高质量去雨结果当"干净特征"，绕过 U-Net。因为奖励是 NAFNet 去雨器产出的当前最优结果，恢复能力远强于 U-Net，用它做残差计算得到的雨信息更准，进而合成出更高质量的伪配对数据、再喂给损失式 (6) 提升去雨性能——奖励越准→雨信息越准→伪配对越好→去雨越强→奖励又更新得更好，形成一个稳定可靠的增益闭环（gain loop）。

3. 自强化损失：把回收的奖励当作缺失的"数据一致性项"，给欠约束的优化补上明确轨迹

这是补齐"无监督缺数据一致性"这个核心矛盾的设计。作者把监督去雨写成 MAP 问题 \(\max_\theta p(\theta|O,B)\propto \max_\theta p(B|O,\theta)\cdot p(\theta)\)，等价的最小化形式是

\[\arg\min_\theta \underbrace{\|B-\mathcal{F}_\theta(O)\|_F^2}_{\text{Data Consistency}}+\lambda\underbrace{P(\theta)}_{\text{Regularization}}\]

无监督任务里对抗损失可看作正则项 \(P(\theta)\)，但前面的数据一致性项因为没有 GT \(B\) 而彻底缺席——这正是欠约束的根源。本文提出用回收到的奖励 \(B_{rw}\) 来顶替这个缺失的干净参照：

\[\mathcal{L}_{re}=\|B_{rw}-B_r\|_F^2\]

把去雨输出 \(B_r\) 直接往高质量奖励上拉。相比只靠正则的旧无监督方法，这一项给出了明确的优化轨迹和更高的保真度，确保恢复结果和干净分布精确对齐。总损失为两阶段损失之和 \(\mathcal{L}_{total}=\mathcal{L}_{s1}+\lambda_2\mathcal{L}_{re}\)，其中阶段一损失 \(\mathcal{L}_{s1}=\min_G\max_D \mathcal{L}_{adv}+\lambda_1\mathcal{L}_{Der}\) 含四个对抗损失之和 \(\mathcal{L}_{adv}\) 以及伪配对上的 \(\mathcal{L}_{Der}=\mathcal{L}_{PSNR}(B_u,B_u^1)+\mathcal{L}_{SSIM}(B_u,B_u^1)\)。

4. 两阶段训练范式：先无监督攒奖励、再带约束自强化，避免冷启动时坏奖励污染优化

奖励的质量决定一切，但训练初期去雨结果很烂、奖励不可靠，如果一上来就用它约束反而会带偏。所以作者把训练拆成"回收阶段"和"自强化阶段"：阶段一只做常规无配对对抗训练，奖励仅被 detach 地收集、不进梯度，让网络先把基础能力练起来、奖励池逐渐积累出好样本；阶段二才接上自强化损失、把 DEM 开关切到奖励端，让奖励真正参与梯度并随训练动态更新，直到性能饱和。这个先攒后用的次序保证了进入约束阶段时奖励已经足够好，闭环才转得起来——消融里 NLCL 因为初始去雨太差、奖励不可靠，SR 策略几乎没带来提升，正好反证了这一点。

损失函数 / 训练策略¶

PyTorch + 4×V100；Adam（\(\beta_1=0.9,\beta_2=0.999\)），初始学习率 \(2\times10^{-4}\)；训练图随机裁成 \(256\times256\) 无配对 patch；权重 \(\lambda_1=1.0\)、\(\lambda_2=0.8\)。把 SR 策略当插件加到别的无监督方法上时，额外多训 3 小时即可。

实验关键数据¶

主实验¶

在 7 个配对数据集（合成 Rain100L/Rain200L/DID-Data/DDN-Data + 真实 SPA-Data/RealRain1K-L + 夜间 Night-Rain）用 PSNR/SSIM 对比。RGSUD 在多数数据集上显著超过其它无监督方法，对夜间数据集也有竞争力，部分指标甚至逼近监督方法。

数据集（PSNR↑/SSIM↑）	CSUD (CVPR25)	DCD-GAN	RGSUD (本文)	对 CSUD 提升
Rain100L	33.28 / 0.954	31.82 / 0.941	34.41 / 0.967	+1.13 dB
Rain200L	33.31 / 0.959	31.37 / 0.934	33.89 / 0.961	+0.58 dB
DDN-Data	28.92 / 0.882	28.66 / 0.878	29.59 / 0.898	+0.67 dB
SPA-Data（真实）	34.78 / 0.949	34.16 / 0.943	35.50 / 0.957	+0.72 dB
RealRain1K-L（真实）	32.71 / 0.959	30.49 / 0.939	32.88 / 0.955	+0.17 dB
Night-Rain	29.90 / 0.879	28.68 / 0.867	30.54 / 0.897	+0.64 dB

在无参考感知指标（CLIP-IQA、MUSIQ、Q-Align、DeQA-Score）和真实无配对数据集（SIRR、Real3000）上，RGSUD 几乎全面领先其它无监督方法，DACLIP-IQA 分（越低越好）在 Real3000 上 0.018 vs CSUD 0.042，泛化性突出。

消融实验¶

配置	Rain100L PSNR	RealRain1K-L PSNR	说明
w/o SR 策略（baseline）	33.04	31.31	仅对抗+伪配对
w/ SR 策略（Full）	34.41 (+1.37)	32.88 (+1.57)	加奖励回收+自强化

IQA 选择（表 7，Rain100L PSNR）	分数	含义
MUSIQ	33.56	判别力一般
CLIP-IQA	33.67	略好
DACLIP-IQA	34.41	判别最准，最终选用

SR 策略作为插件加到其它去雨器/方法上同样有效：换 Derainer（表 5）在 NeRD-Rain 上 Rain200L +0.78 dB、DRSformer +0.69 dB、Restormer +0.42 dB；当插件加到 DCD-GAN/CSUD（表 6）Rain100L 分别 +0.41/+0.68 dB。

关键发现¶

SR 策略是涨点主力：在 RealRain1K-L 上去掉它直接掉 1.57 dB，说明"回收奖励 + 自强化约束"对真实复杂雨的收益最大。
奖励裁判的选择很关键：DACLIP-IQA 比 MUSIQ 高近 0.85 dB——奖励质量直接决定闭环上限，劣质 IQA 会带偏整套机制。
强可迁移性：换不同去雨器（Restormer/DRSformer/NeRD-Rain/NAFNet）和不同无监督框架都能涨，证明 SR 策略是通用插件而非和某一网络绑定。
冷启动是软肋：NLCL 因为初始去雨太差、奖励不可靠，SR 策略几乎不涨——奖励质量不达标时闭环转不起来。

亮点与洞察¶

把"训练中偶发的好结果"当作隐式监督来回收，这个观察很巧：别人都在设计正则项硬约束，本文换个角度——好结果其实一直在出现，缺的只是一个能在无 GT 下识别它的裁判，而 VLM-IQA 正好补上了这块。
用 MAP 视角把缺失的数据一致性项形式化，再用奖励顶替，把"为什么无监督难"讲成了一个清晰的数学缺项问题，自强化损失 \(\|B_{rw}-B_r\|^2\) 是对这个缺项的直接补偿，逻辑闭环很干净。
DEM 用奖励替代 U-Net 特征形成的增益闭环可迁移：任何"先估退化再合成数据"的无配对恢复任务（去雾、去噪、低光增强）都能套用"用当前最优输出当干净参照"的思路。
SR 策略是即插即用插件，多训 3 小时就能给现成无监督方法涨点，工程价值高。

局限与展望¶

作者承认：初始去雨结果差时奖励不可靠，会直接拖累后续 SR 策略（NLCL 上几乎无提升）——方法依赖一个"够好的起点"，对极弱 baseline 不友好。
整套机制依赖 VLM-IQA（DACLIP-IQA）的感知评分质量，若 IQA 在某些退化/场景下失准，奖励会系统性偏差；消融也显示换差的 IQA 直接掉点。
奖励池需为每张训练样本维护并反复打分，训练开销和显存会随数据规模上升；论文未给出大规模数据集上的效率分析。
主要验证在去雨任务，虽宣称对"先估退化再合成"的范式通用，但跨退化类型（去雾/去噪混合退化）的实证仍待补。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 RL 奖励思想 + VLM-IQA 引入无监督去雨，并用 MAP 视角把奖励解释为缺失的数据一致性项，角度新且自洽
实验充分度: ⭐⭐⭐⭐⭐ 7 配对 + 2 无配对数据集、多种 IQA、换去雨器/换框架的可迁移性、插件实验、下游任务都覆盖了
写作质量: ⭐⭐⭐⭐ 动机—机制—公式链条清楚，图 1/图 2 配合好；个别符号（\(B_r/B_{rw}\)）略密
价值: ⭐⭐⭐⭐⭐ SR 策略即插即用、对真实复杂雨收益最大，对整个无监督恢复方向有借鉴意义