Enhancing Infrared Vision: Progressive Prompt Fusion Network and Benchmark¶

会议: NeurIPS 2025
arXiv: 2510.09343
代码: https://github.com/Zihang-Chen/HM-TIR
领域: 图像复原
关键词: 热红外图像增强, Prompt学习, All-in-One复原, 渐进式训练, TIR Benchmark

一句话总结¶

针对热红外(TIR)图像中低对比度、模糊、噪声等多种退化耦合的问题，提出基于双提示融合的渐进式网络PPFN和选择性渐进训练策略SPT，并构建首个大规模多场景TIR基准数据集HM-TIR，在复合退化场景下PSNR提升8.76%。

研究背景与动机¶

领域现状：热红外成像依靠探测物体热辐射工作（8-14μm波长），不依赖外部光源，能穿透烟雾和遮挡，广泛用于目标检测、语义分割和自动驾驶。现有TIR增强方法主要针对单一退化类型设计——去噪、去模糊或对比度增强各自独立处理。

现有痛点：（a）单退化方法无法处理复合退化场景（真实TIR图像通常同时包含噪声+模糊+低对比度）；（b）面向可见光的All-in-One复原方法（如PromptIR、DA-CLIP）直接应用到TIR效果不佳，因为红外和可见光的成像模型、退化模式本质不同；（c）现有TIR数据集场景单一、分辨率低、规模小，缺乏多退化类型覆盖。

核心矛盾：TIR退化具有特殊的物理级联关系（低对比度→模糊→噪声），但现有方法既没有建模这种级联退化顺序，也没有区分单一vs复合退化场景的能力。

本文目标：（a）如何用单个模型同时处理TIR的多种退化及其复合情况？（b）如何让模型感知退化类型和场景类型？（c）如何构建足够大且多样的TIR基准？

切入角度：从TIR成像物理过程出发，将退化分为三步级联（对比度退化→模糊→噪声），利用prompt机制区分退化类型和场景类型，渐进式逆序移除各退化。

核心 idea：通过双提示（退化类型+场景类型）融合调制特征 + 选择性渐进训练逆序去退化，实现TIR图像的统一All-in-One增强。

方法详解¶

整体框架¶

输入退化TIR图像，经Restormer（或其他骨干网络）处理。核心在于两个新增模块：（1）PPFN（渐进提示融合网络）——将退化类型提示和场景类型提示融合后通过通道调制注入骨干的每层特征；（2）SPT（选择性渐进训练）——复合退化时按逆序分步迭代去除各退化，单退化时标准训练。输出为增强后的清晰TIR图像。

关键设计¶

双提示处理模块（Dual Prompt Processing）
- 功能：为模型提供两类先验信息——"这张图有哪种退化？"和"这是单退化还是复合退化？"
- 核心思路：定义退化特定提示 \(\mathbf{P}_{deg} = \{\mathbf{p}^n_{deg}, \mathbf{p}^b_{deg}, \mathbf{p}^c_{deg}\}\)（噪声、模糊、对比度）和类型特定提示 \(\mathbf{P}_{type} = \{\mathbf{p}^s_{type}, \mathbf{p}^h_{type}\}\)（单一、复合）。每个提示通过轻量编码器 \(\mathbf{E}_{deg}\)、\(\mathbf{E}_{type}\) 编码为特征向量。
- 设计动机：单一提示不足以区分"去噪 in 单退化"和"去噪 in 复合退化"这两种不同情境，双提示的交叉组合让模型精确感知当前操作上下文。消融实验证明只用退化提示得0.29dB提升，双提示得0.40dB。
提示融合模块（Prompt Fusion Module）
- 功能：将两种提示特征融合后生成通道调制参数 \(\gamma\) 和 \(\beta\)，注入骨干网络的各层特征。
- 核心思路：拼接两种提示特征后经线性层+非线性激活得到融合特征 \(\mathbf{F}_p = \phi(\mathcal{W}_{fusion}(\text{Cat}(\mathbf{F}^p_{deg}, \mathbf{F}^p_{type})))\)，再通过另一线性层分裂出 \(\gamma, \beta\)，对第 \(l\) 层特征做 FiLM 调制：\(\tilde{\mathbf{F}}_l = \mathbf{F}_l \otimes (1 + \gamma_l) + \beta_l\)。
- 设计动机：采用拼接+非线性胜过简单相乘（消融中Multiply方案PSNR低0.08dB且SSIM下降），FiLM调制是即插即用的，可以轻松集成到任意骨干网络中。
选择性渐进训练（SPT）
- 功能：区分单退化和复合退化场景，采用不同的训练/推理策略。
- 核心思路：对复合退化，按物理退化顺序（对比度→模糊→噪声）的逆序分步去除。推理时先去噪、再去模糊、最后增强对比度。训练时输入最终退化图 \(\mathbf{I}^N_d\)，每步 \(k\) 恢复到第 \(k-1\) 步退化图作为GT。关键：下一轮输入用上一轮的输出（stop_gradient），而非直接用中间退化图，防止残余退化影响；所有步的梯度累积后一次性更新参数。对单退化，直接标准训练。
- 设计动机：直接对baseline做迭代训练反而降0.23dB，因为简单循环让模型过度关注某一退化。SPT通过梯度累积+stop_gradient解决了训练不稳定问题，迭代3次收敛到最优。

损失函数 / 训练策略¶

使用 L1 loss 作为重建损失
Adam优化器，\(\beta_1=0.9\), \(\beta_2=0.999\)
初始学习率 \(8\times10^{-5}\)，余弦退火至 \(10^{-6}\)
Batch size 4，patch size 256×256，随机裁剪+翻转
训练300 epochs，4 × 4090D GPU
退化合成使用Gated Degradation pipeline，各gate概率0.8

实验关键数据¶

主实验¶

方法	类型	Normal Set PSNR/SSIM	Iray NIMA↑/MUSIQ↑/NIQE↓
WFAF	TIR单退化	低（有严重伪影）	3.73 / 25.13 / 10.35
LRSID	TIR单退化	低	3.57 / 24.21 / 8.68
DA-CLIP	可见光AIO	中等	3.70 / 27.79 / 9.19
DiffUIR	可见光AIO	中等	3.59 / 26.81 / 9.34
Baseline (Restormer)	骨干	23.28/0.796	3.58 / 27.78 / 8.78
Ours (PPFN+SPT)	本文	25.32/0.818	3.83 / 30.91 / 8.47

跨5个骨干网络平均提升（Normal Set PSNR）：FocalNet +1.41dB，UFormer +0.82dB，NAFNet +1.45dB，XRestormer +1.21dB，Restormer +2.04dB。

消融实验¶

配置	PSNR	SSIM	说明
Baseline (Restormer)	22.87	0.757	无prompt无SPT
+ 迭代训练(无prompt)	22.64	0.752	直接迭代反而掉点
+ 退化提示(DSP only)	23.16	0.764	+0.29dB
+ 双提示 w/o 非线性	23.15	0.765	去掉激活函数效果差
+ 双提示 Multiply融合	23.14	0.763	乘法不如拼接
+ PPFN (iter=1)	14.55	0.613	单次迭代不够
+ PPFN (iter=3, full)	23.27	0.764	完整模型最优

关键发现¶

SPT迭代次数设为3（对应三种退化）是最优，1次或2次PSNR急剧下降至~14.5，说明需逐步去除所有退化才能收敛。
使用错误的type prompt（单退化prompt处理复合退化）导致残余退化无法去除；错误退化移除顺序也明显降低性能。
PPFN即插即用：在5个不同骨干上均取得一致提升，Restormer上提升最大（+8.76%）。

亮点与洞察¶

基于物理过程的退化建模：将TIR退化分解为低对比度→模糊→噪声的级联过程，推理时按反序逐步去除，可迁移到任何有明确退化级联关系的场景。
双提示的prompt设计：同时编码"退化类型"和"场景类型"两个维度，通过FiLM调制注入特征，简洁有效，可推广到其他多任务图像处理问题。
HM-TIR数据集：1503张640×512分辨率TIR图像，覆盖8类场景、5种退化，是目前最大最多样的TIR增强基准。

局限与展望¶

退化顺序固定为三步，如果真实场景退化顺序不符合假设可能失效。
prompt需要人工指定退化类型和场景类型，未实现自动退化感知——可考虑加入退化估计网络。
仅用L1 loss，没有感知损失或对抗损失，可能限制视觉质量上限。
HM-TIR数据集虽然相对较大，但退化是合成的而非真实捕获的复合退化。

评分¶

新颖性: ⭐⭐⭐⭐ 双prompt+SPT组合在TIR场景首创，但FiLM调制和渐进训练基本思想已有先例
实验充分度: ⭐⭐⭐⭐⭐ 5个骨干、多个benchmark、充分消融、prompt敏感性分析
写作质量: ⭐⭐⭐⭐ 结构清晰，物理动机阐述到位
价值: ⭐⭐⭐⭐ HM-TIR数据集和PPFN模块对TIR社区有实际贡献