Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization¶
会议: ICLR 2026
论文: OpenReview: jDMAvoLsVj
代码: https://github.com/Amazingren/MIRAGE(有)
领域: 图像恢复 / All-in-One Restoration
关键词: 退化无关恢复、通道功能分解、SPD流形对比学习、混合退化、高效模型设计
一句话总结¶
MIRAGE 通过“按通道拆分注意力特征给 CNN/Attention/MLP 三分支各司其职 + 在 SPD 协方差空间做浅层-深层对比对齐”,在 all-in-one 图像恢复里同时拿到更高精度和更低计算开销。
研究背景与动机¶
领域现状:退化无关图像恢复(degradation-agnostic IR)的目标是用一个模型同时处理去噪、去雨、去雾、去模糊、低照增强等多类退化。近年的主流路线大致分两类:一类靠 prompt/多模态/大模型增强泛化,效果强但代价高;另一类走轻量化架构,速度快但多退化场景精度容易掉。
现有痛点:统一模型最难的是“同一套参数要同时满足不同退化的表征需求”。加性退化(噪声、雨)更吃局部纹理建模,乘性退化(雾、低照)更依赖全局上下文,卷积退化(模糊)又要求跨尺度结构推理。很多方法不是把网络堆大,就是通过额外模块堆复杂度,结果是参数量、显存、FLOPs 都高。
核心矛盾:现有工作经常把“Transformer 通道冗余”当作可裁剪对象,但没有把这些冗余能力系统性地重分配为“有功能差异的子空间”。于是模型要么浪费容量,要么在复杂退化下表达不足。
本文目标:作者把问题拆成两个子目标。第一,如何在不增大模型体量的前提下,让一个 backbone 覆盖局部纹理、全局关系、通道统计三类互补能力。第二,如何让浅层与深层特征在多退化场景下保持一致语义,避免跨层漂移导致的泛化不稳。
切入角度:作者先做了通道冗余实证(PCA/SVD),观察到多尺度 attention 特征存在明显低秩冗余,尤其浅层更强;再观察到浅层和深层特征在统计结构上天然不对称,正好可构造“自然对比对”。基于这两点,提出“通道功能分解 + SPD 对比正则”的组合方案。
核心 idea:把注意力特征按通道切分给三条互补分支去做专职建模,再用 SPD 协方差对比学习把浅层细节与深层语义对齐,从而以小模型实现强泛化。
方法详解¶
整体框架¶
MIRAGE 是一个 U-Net 风格的 4-level encoder-decoder 主干,核心 block 叫 MDAB(Mixed Degradation Adaptation Block)。每个 MDAB 先做“通道维三分支并行处理”,再做“分支间互融合”,最后用 FFN + 残差收束。除了主干外,训练时额外引入 shallow-latent 的 SPD 对比损失;推理时这条正则支路不增加额外开销。
直观上看,它不是再塞一个昂贵 prompt 模块,而是把已有通道容量重新组织:一部分给卷积抓局部细节,一部分给注意力看全局上下文,一部分给 MLP 管通道统计。与此同时,用跨层对比把“浅层纹理感知”和“深层语义稳定性”拉到同一个结构化空间里。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["退化图像输入"] --> B["卷积 Patch Embedding"]
B --> C["通道功能分解"]
C --> D["局部纹理建模"]
C --> E["全局上下文建模"]
C --> F["通道统计建模"]
D --> G["分支互融合"]
E --> G
F --> G
G --> H["U-Net 编解码重建"]
H --> I["恢复图像输出"]
B --> J["浅层特征 SPD 表征"]
H --> K["潜变量特征 SPD 表征"]
J --> L["流形正则对齐"]
K --> L
L --> H
关键设计¶
1. 通道功能分解:把冗余通道变成功能互补的三路表征
传统 attention-only 结构里通道冗余往往被当作“可剪枝垃圾”,MIRAGE 的做法是“重分工而非硬删减”。给定输入特征 \(F_{in}\in\mathbb{R}^{H\times W\times C}\),先沿通道切成三份:\(F^{att}_{in}, F^{conv}_{in}, F^{mlp}_{in}\),分别进入注意力、动态卷积、C-MLP 分支并行处理。这样每个分支只处理 \(\frac{C}{3}\) 规模通道,计算显著下降,但总表示能力并没有被粗暴丢弃。
这背后的关键不是“多分支”本身,而是“分支和退化属性对齐”:卷积分支偏局部纹理,适合噪声/雨丝这类细粒度残留;注意力分支偏全局关联,适合雾/低照这类空间非均匀退化;MLP 分支补充通道统计混合,增强跨退化的稳健性。作者在文中强调,这是由实证冗余分析驱动的结构重组,而不是经验堆模块。
2. 分支互融合:在低成本并行基础上补回跨机制交互
并行分支会带来一个副作用:各自专注后,可能缺少跨分支的信息流。MIRAGE 在 MDAB 里加了 inter-branch mutual fusion:每个分支都会吸收另外两支的门控信息,并用可学习系数 \(\lambda_{att},\lambda_{conv},\lambda_{mlp}\) 控制融合强度。其形式可写成:
相比直接 concat 后线性投影,这个机制在“轻量分工”和“信息耦合”之间找到了更稳定的折中。消融也验证了这一点:去掉融合后性能下降,说明三支并行不是简单拼接就够,关键在于融合前的互相调制。
3. SPD 流形正则:用二阶统计做浅层-潜变量跨层对齐
统一恢复里浅层和深层承担的语义并不对称。浅层更敏感于局部退化细节,深层更稳定于语义结构;如果二者长期漂移,模型在混合或未见退化上容易失配。作者把两者视作“天然对比对”,但不在欧氏空间直接拉近,而是先构造协方差矩阵进入 SPD 空间。
对浅层与潜变量特征 \(X_s, X_l\),先算协方差:
再向量化并投影到对比嵌入,使用 InfoNCE:
核心收益是保留通道间二阶依赖结构。文中案例显示,若换成欧氏对比,特征更易塌缩到近常数相似度;SPD 对齐则能保持有辨识度的对角主导结构,进而提升跨退化泛化。
4. 训练目标组合:空间域、频域、结构域三重约束协同
MIRAGE 的总损失为:
其中 \(\mathcal{L}_1\) 保证像素重建,\(\mathcal{L}_{Fourier}\) 对齐频域实部/虚部以约束纹理频率一致性,\(\mathcal{L}_{SPD}\) 负责跨层结构对齐。论文中使用 \(\lambda_{fre}=0.1\)、\(\tau=0.1\),并报告 \(\lambda_{ctrs}=0.05\)。这一设计让模型在“看起来清晰”与“结构上可泛化”之间同时受约束。
一个完整示例¶
以 CDD11 的三重退化样本(低照+雾+雪)为例,MIRAGE 的一次前向可理解为:
- 输入先经 patch embedding 得到浅层特征,保留大量局部边缘和噪声混合信息。
- 在 MDAB 中按通道切三路:卷积分支优先修复雪粒与边缘断裂,注意力分支估计雾导致的全局对比度偏移,MLP 分支重排通道响应以稳定颜色与亮度统计。
- 三分支互融合后进入下一级编码,语义逐步抽象,解码阶段再将多尺度细节回灌到输出。
- 训练时浅层与潜变量分别构造协方差嵌入,SPD 对比损失促使“局部细节线索”和“深层语义线索”在结构上对齐,避免模型只顾某一类退化。
- 最终输出在该类复合退化上比同量级 OneRestore 更高,且在未见过的水下增强任务也能维持较强泛化。
这个例子反映了 MIRAGE 的关键点:不是靠更大模型“硬记住”所有退化,而是让不同机制对不同退化信号各尽其职,再通过结构化对齐统一起来。
损失函数 / 训练策略¶
训练流程遵循 all-in-one IR 常见设置,但重点在于目标函数组合与轻量架构匹配:
- 优化器:Adam,初始学习率 \(2\times10^{-4}\),\(\beta_1=0.9,\beta_2=0.999\),余弦退火。
- 数据增强:随机裁剪 \(128\times128\),水平/垂直翻转。
- 训练轮数:3 退化约 130 epoch,5 退化约 150 epoch,复合退化约 170 epoch。
- 模型规模:Tiny 6.21M(16G FLOPs),Small 9.68M(27G FLOPs)。
推理阶段不需要 SPD 对比分支,因此“训练时加正则,测试时不增负担”是该方法在工程上很实用的一点。
实验关键数据¶
主实验¶
下表汇总了论文里最核心的多设置结果,能直接体现 MIRAGE 的“精度-效率”优势。
| 设置 | 方法 | 参数量 | 关键结果 | 相对对比 |
|---|---|---|---|---|
| 3 退化 All-in-One | MIRAGE-S | 10M | 平均 PSNR 32.91 / SSIM 0.919 | 比 PromptIR(36M) +0.85dB;比 MoCE-IR(25M) +0.18dB |
| 3 退化 All-in-One | MIRAGE-T | 6M | 平均 PSNR 32.77 / SSIM 0.919 | 仅 6M 参数已超过多种更大模型 |
| 5 退化 All-in-One | MIRAGE-S | 10M | 平均 PSNR 30.68 / SSIM 0.914 | 比 PromptIR +1.53dB;比 MoCE-IR-S +0.60dB |
| CDD11 复合退化 | MIRAGE-S | 10M | 平均 PSNR 29.33 / SSIM 0.887 | 比 MoCE-IR(11M) +0.28dB |
| 零样本水下增强 | MIRAGE-S | 10M | 17.29dB / 0.773 | 比 MoCE-IR +1.38dB |
再看复杂度对比(来自论文 Table 6):
| 方法 | 平均 PSNR(3退化) | 显存占用 | 参数量 | FLOPs |
|---|---|---|---|---|
| PromptIR | 32.06 | 9830M | 35.59M | 132G |
| MoCE-IR-S | 32.51 | 4263M | 11.48M | 37G |
| MoCE-IR | 32.73 | 6654M | 25.35M | 75G |
| MIRAGE-T | 32.77 | 3729M | 6.21M | 16G |
| MIRAGE-S | 32.91 | 4810M | 9.68M | 27G |
结论很直接:MIRAGE 不是“多花算力换分数”,而是在更低计算预算下拿到更好结果。
消融实验¶
论文 Table 7 / Table C 对核心模块做了系统消融,下面列最关键项:
| 配置 | 参数量 | 平均 PSNR | 相比 Full 变化 | 说明 |
|---|---|---|---|---|
| att-only | 19.89M | 32.23 | -0.54dB | 纯注意力不仅更重,效果也更差 |
| w/o DynamicConv | 9.43M | 32.21 | -0.56dB | 局部自适应卷积对细节恢复很关键 |
| w/o C-MLP | 7.01M | 32.39 | -0.38dB | 通道统计建模不可缺 |
| w/o Fusion | 5.71M | 32.57 | -0.20dB | 并行后若不做互融合会损失性能 |
| w/o CL & SPD | 5.80M | 32.63 | -0.14dB | 跨层对比对齐确实有效 |
| w/o SPD(Euclidean CL) | 6.10M | 32.53 | -0.24dB | 欧氏对比劣于 SPD 结构对比 |
| Full(MIRAGE-T) | 6.21M | 32.77 | 0 | 精度和效率最平衡 |
关键发现¶
- 动态卷积分支是最“硬收益”模块之一,去掉后降幅最大(-0.56dB),说明局部纹理恢复仍然是 all-in-one IR 的基本盘。
- SPD 对齐比普通欧氏对齐更稳,后者会出现更明显的表示塌缩倾向,印证“二阶结构信息”在跨层对齐中的必要性。
- MIRAGE-T 的意义不只是小模型可用,而是证明“合理分解 + 合理对齐”能让 6M 级别模型逼近或超过 25M+ 方案。
- 在复合退化与零样本设置中的持续优势,说明该方法学到的不是单任务技巧,而是跨退化可迁移表征。
亮点与洞察¶
- 把“通道冗余”从剪枝视角转成“功能重分配”视角,是这篇文章最有方法论价值的点。它避免了“剪完变轻但变弱”的常见问题。
- SPD 对比学习的落地方式很务实:训练期引入,推理期零额外成本。很多几何方法理论漂亮但工程代价高,本文在这点上取了较好的平衡。
- 消融结构设计非常完整,覆盖了分支、融合、对比损失和欧氏/SPD 对比替代,能让读者清楚看到每个部件的边际贡献。
- 复合退化(CDD11)和零样本水下这两个场景的结果很关键,它们比单一基准更接近真实部署问题,说明方法不仅“榜单好看”,也具备实用潜力。
局限与展望¶
- 作者承认的局限是去模糊任务上仍略落后于个别更大模型,说明当前容量配置对某些强结构退化还不够充裕。
- SPD 正则目前本质上仍是“SPD 特征后投影到欧氏空间做 InfoNCE”,并非完整黎曼几何优化;理论上还有继续提升空间。
- 模型里 CNN/Attention/MLP 的通道比例是固定切分,未做到按退化类型自适应分配,可能限制了极端场景下的最优性。
- 训练数据仍以合成退化为主,虽然有零样本与真实数据补充,但在更复杂相机 ISP 链路下的稳定性仍需更大规模验证。
可行的后续方向:
- 做退化感知的动态通道配比,让三分支容量可随输入自适应。
- 探索更严格的 SPD 流形距离或 geodesic 对比目标,进一步减少表征塌缩。
- 针对去模糊单独设计更强的跨尺度约束,同时保持总体轻量化。
相关工作与启发¶
- vs PromptIR(NeurIPS 2023): PromptIR 通过 prompt 机制提升多退化适配,泛化好但模型较重(36M);MIRAGE 选择“结构重组 + 流形正则”,在更小参数下拿到更高平均 PSNR,说明不一定要靠大 prompt 才能统一建模。
- vs MoCE-IR(CVPR 2025): MoCE-IR 用专家混合做复杂度感知,效果强但整体仍偏重;MIRAGE 的优势是计算开销更低且复合退化表现不弱,适合资源受限场景。
- vs DA-RCOT(TPAMI 2025): DA-RCOT 也做对比学习,但主要在残差特征空间;MIRAGE 强调 shallow-latent 配对和 SPD 二阶统计,实验证明其在参数更少时也能达到更优质量。
对后续工作的启发:
- 在统一恢复任务里,先分析“冗余发生在哪”,再做结构重分配,通常比盲目叠模块更有效。
- 跨层对齐若只用一阶向量相似度容易欠约束,加入二阶统计或结构先验会更稳。
- 轻量模型要做强,不是只做剪枝,而是把每一部分计算预算放到最匹配的归纳偏置上。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 通道功能分解与 SPD 跨层对齐的组合有清晰新意,尤其是“冗余重分配”视角。
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 3/5 退化、复合退化、恶劣天气、零样本和完整消融,证据链较扎实。
- 写作质量: ⭐⭐⭐⭐☆ 方法动机和消融解释比较清楚,工程细节也给得充分。
- 价值: ⭐⭐⭐⭐⭐ 在 all-in-one IR 里给出了可复用的高效设计范式,兼顾学术与落地价值。