Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization¶

会议: ICLR 2026
论文: OpenReview: jDMAvoLsVj
代码: https://github.com/Amazingren/MIRAGE（有）
领域: 图像恢复 / All-in-One Restoration
关键词: 退化无关恢复、通道功能分解、SPD流形对比学习、混合退化、高效模型设计

一句话总结¶

MIRAGE 通过“按通道拆分注意力特征给 CNN/Attention/MLP 三分支各司其职 + 在 SPD 协方差空间做浅层-深层对比对齐”，在 all-in-one 图像恢复里同时拿到更高精度和更低计算开销。

研究背景与动机¶

领域现状：退化无关图像恢复（degradation-agnostic IR）的目标是用一个模型同时处理去噪、去雨、去雾、去模糊、低照增强等多类退化。近年的主流路线大致分两类：一类靠 prompt/多模态/大模型增强泛化，效果强但代价高；另一类走轻量化架构，速度快但多退化场景精度容易掉。

现有痛点：统一模型最难的是“同一套参数要同时满足不同退化的表征需求”。加性退化（噪声、雨）更吃局部纹理建模，乘性退化（雾、低照）更依赖全局上下文，卷积退化（模糊）又要求跨尺度结构推理。很多方法不是把网络堆大，就是通过额外模块堆复杂度，结果是参数量、显存、FLOPs 都高。

核心矛盾：现有工作经常把“Transformer 通道冗余”当作可裁剪对象，但没有把这些冗余能力系统性地重分配为“有功能差异的子空间”。于是模型要么浪费容量，要么在复杂退化下表达不足。

本文目标：作者把问题拆成两个子目标。第一，如何在不增大模型体量的前提下，让一个 backbone 覆盖局部纹理、全局关系、通道统计三类互补能力。第二，如何让浅层与深层特征在多退化场景下保持一致语义，避免跨层漂移导致的泛化不稳。

切入角度：作者先做了通道冗余实证（PCA/SVD），观察到多尺度 attention 特征存在明显低秩冗余，尤其浅层更强；再观察到浅层和深层特征在统计结构上天然不对称，正好可构造“自然对比对”。基于这两点，提出“通道功能分解 + SPD 对比正则”的组合方案。

核心 idea：把注意力特征按通道切分给三条互补分支去做专职建模，再用 SPD 协方差对比学习把浅层细节与深层语义对齐，从而以小模型实现强泛化。

方法详解¶

整体框架¶

MIRAGE 是一个 U-Net 风格的 4-level encoder-decoder 主干，核心 block 叫 MDAB（Mixed Degradation Adaptation Block）。每个 MDAB 先做“通道维三分支并行处理”，再做“分支间互融合”，最后用 FFN + 残差收束。除了主干外，训练时额外引入 shallow-latent 的 SPD 对比损失；推理时这条正则支路不增加额外开销。

直观上看，它不是再塞一个昂贵 prompt 模块，而是把已有通道容量重新组织：一部分给卷积抓局部细节，一部分给注意力看全局上下文，一部分给 MLP 管通道统计。与此同时，用跨层对比把“浅层纹理感知”和“深层语义稳定性”拉到同一个结构化空间里。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["退化图像输入"] --> B["卷积 Patch Embedding"]
    B --> C["通道功能分解"]
    C --> D["局部纹理建模"]
    C --> E["全局上下文建模"]
    C --> F["通道统计建模"]
    D --> G["分支互融合"]
    E --> G
    F --> G
    G --> H["U-Net 编解码重建"]
    H --> I["恢复图像输出"]
    B --> J["浅层特征 SPD 表征"]
    H --> K["潜变量特征 SPD 表征"]
    J --> L["流形正则对齐"]
    K --> L
    L --> H

关键设计¶

1. 通道功能分解：把冗余通道变成功能互补的三路表征

传统 attention-only 结构里通道冗余往往被当作“可剪枝垃圾”，MIRAGE 的做法是“重分工而非硬删减”。给定输入特征 \(F_{in}\in\mathbb{R}^{H\times W\times C}\)，先沿通道切成三份：\(F^{att}_{in}, F^{conv}_{in}, F^{mlp}_{in}\)，分别进入注意力、动态卷积、C-MLP 分支并行处理。这样每个分支只处理 \(\frac{C}{3}\) 规模通道，计算显著下降，但总表示能力并没有被粗暴丢弃。

这背后的关键不是“多分支”本身，而是“分支和退化属性对齐”：卷积分支偏局部纹理，适合噪声/雨丝这类细粒度残留；注意力分支偏全局关联，适合雾/低照这类空间非均匀退化；MLP 分支补充通道统计混合，增强跨退化的稳健性。作者在文中强调，这是由实证冗余分析驱动的结构重组，而不是经验堆模块。

2. 分支互融合：在低成本并行基础上补回跨机制交互

并行分支会带来一个副作用：各自专注后，可能缺少跨分支的信息流。MIRAGE 在 MDAB 里加了 inter-branch mutual fusion：每个分支都会吸收另外两支的门控信息，并用可学习系数 \(\lambda_{att},\lambda_{conv},\lambda_{mlp}\) 控制融合强度。其形式可写成：

\[ \begin{aligned} F^{att'} &= F^{att} + \lambda_{att}\,\sigma(F^{conv}+F^{mlp}),\\ F^{conv'} &= F^{conv} + \lambda_{conv}\,\sigma(F^{att}+F^{mlp}),\\ F^{mlp'} &= F^{mlp} + \lambda_{mlp}\,\sigma(F^{att}+F^{conv}). \end{aligned} \]

相比直接 concat 后线性投影，这个机制在“轻量分工”和“信息耦合”之间找到了更稳定的折中。消融也验证了这一点：去掉融合后性能下降，说明三支并行不是简单拼接就够，关键在于融合前的互相调制。

3. SPD 流形正则：用二阶统计做浅层-潜变量跨层对齐

统一恢复里浅层和深层承担的语义并不对称。浅层更敏感于局部退化细节，深层更稳定于语义结构；如果二者长期漂移，模型在混合或未见退化上容易失配。作者把两者视作“天然对比对”，但不在欧氏空间直接拉近，而是先构造协方差矩阵进入 SPD 空间。

对浅层与潜变量特征 \(X_s, X_l\)，先算协方差：

\[ C_s=\frac{1}{N-1}(X_s-\mu_s)(X_s-\mu_s)^\top+\epsilon I,\quad C_l=\frac{1}{N'-1}(X_l-\mu_l)(X_l-\mu_l)^\top+\epsilon I. \]

再向量化并投影到对比嵌入，使用 InfoNCE：

\[ \mathcal{L}_{SPD}=-\log\frac{\exp(\mathrm{sim}(z_s,z_l)/\tau)}{\sum_{z_l'}\exp(\mathrm{sim}(z_s,z_l')/\tau)}. \]

核心收益是保留通道间二阶依赖结构。文中案例显示，若换成欧氏对比，特征更易塌缩到近常数相似度；SPD 对齐则能保持有辨识度的对角主导结构，进而提升跨退化泛化。

4. 训练目标组合：空间域、频域、结构域三重约束协同

MIRAGE 的总损失为：

\[ \mathcal{L}_{total}=\mathcal{L}_1+\lambda_{fre}\mathcal{L}_{Fourier}+\lambda_{ctrs}\mathcal{L}_{SPD}. \]

其中 \(\mathcal{L}_1\) 保证像素重建，\(\mathcal{L}_{Fourier}\) 对齐频域实部/虚部以约束纹理频率一致性，\(\mathcal{L}_{SPD}\) 负责跨层结构对齐。论文中使用 \(\lambda_{fre}=0.1\)、\(\tau=0.1\)，并报告 \(\lambda_{ctrs}=0.05\)。这一设计让模型在“看起来清晰”与“结构上可泛化”之间同时受约束。

一个完整示例¶

以 CDD11 的三重退化样本（低照+雾+雪）为例，MIRAGE 的一次前向可理解为：

输入先经 patch embedding 得到浅层特征，保留大量局部边缘和噪声混合信息。
在 MDAB 中按通道切三路：卷积分支优先修复雪粒与边缘断裂，注意力分支估计雾导致的全局对比度偏移，MLP 分支重排通道响应以稳定颜色与亮度统计。
三分支互融合后进入下一级编码，语义逐步抽象，解码阶段再将多尺度细节回灌到输出。
训练时浅层与潜变量分别构造协方差嵌入，SPD 对比损失促使“局部细节线索”和“深层语义线索”在结构上对齐，避免模型只顾某一类退化。
最终输出在该类复合退化上比同量级 OneRestore 更高，且在未见过的水下增强任务也能维持较强泛化。

这个例子反映了 MIRAGE 的关键点：不是靠更大模型“硬记住”所有退化，而是让不同机制对不同退化信号各尽其职，再通过结构化对齐统一起来。

损失函数 / 训练策略¶

训练流程遵循 all-in-one IR 常见设置，但重点在于目标函数组合与轻量架构匹配：

优化器：Adam，初始学习率 \(2\times10^{-4}\)，\(\beta_1=0.9,\beta_2=0.999\)，余弦退火。
数据增强：随机裁剪 \(128\times128\)，水平/垂直翻转。
训练轮数：3 退化约 130 epoch，5 退化约 150 epoch，复合退化约 170 epoch。
模型规模：Tiny 6.21M（16G FLOPs），Small 9.68M（27G FLOPs）。

推理阶段不需要 SPD 对比分支，因此“训练时加正则，测试时不增负担”是该方法在工程上很实用的一点。

实验关键数据¶

主实验¶

下表汇总了论文里最核心的多设置结果，能直接体现 MIRAGE 的“精度-效率”优势。

设置	方法	参数量	关键结果	相对对比
3 退化 All-in-One	MIRAGE-S	10M	平均 PSNR 32.91 / SSIM 0.919	比 PromptIR(36M) +0.85dB；比 MoCE-IR(25M) +0.18dB
3 退化 All-in-One	MIRAGE-T	6M	平均 PSNR 32.77 / SSIM 0.919	仅 6M 参数已超过多种更大模型
5 退化 All-in-One	MIRAGE-S	10M	平均 PSNR 30.68 / SSIM 0.914	比 PromptIR +1.53dB；比 MoCE-IR-S +0.60dB
CDD11 复合退化	MIRAGE-S	10M	平均 PSNR 29.33 / SSIM 0.887	比 MoCE-IR(11M) +0.28dB
零样本水下增强	MIRAGE-S	10M	17.29dB / 0.773	比 MoCE-IR +1.38dB

再看复杂度对比（来自论文 Table 6）：

方法	平均 PSNR（3退化）	显存占用	参数量	FLOPs
PromptIR	32.06	9830M	35.59M	132G
MoCE-IR-S	32.51	4263M	11.48M	37G
MoCE-IR	32.73	6654M	25.35M	75G
MIRAGE-T	32.77	3729M	6.21M	16G
MIRAGE-S	32.91	4810M	9.68M	27G

结论很直接：MIRAGE 不是“多花算力换分数”，而是在更低计算预算下拿到更好结果。

消融实验¶

论文 Table 7 / Table C 对核心模块做了系统消融，下面列最关键项：

配置	参数量	平均 PSNR	相比 Full 变化	说明
att-only	19.89M	32.23	-0.54dB	纯注意力不仅更重，效果也更差
w/o DynamicConv	9.43M	32.21	-0.56dB	局部自适应卷积对细节恢复很关键
w/o C-MLP	7.01M	32.39	-0.38dB	通道统计建模不可缺
w/o Fusion	5.71M	32.57	-0.20dB	并行后若不做互融合会损失性能
w/o CL & SPD	5.80M	32.63	-0.14dB	跨层对比对齐确实有效
w/o SPD（Euclidean CL）	6.10M	32.53	-0.24dB	欧氏对比劣于 SPD 结构对比
Full（MIRAGE-T）	6.21M	32.77	0	精度和效率最平衡

关键发现¶

动态卷积分支是最“硬收益”模块之一，去掉后降幅最大（-0.56dB），说明局部纹理恢复仍然是 all-in-one IR 的基本盘。
SPD 对齐比普通欧氏对齐更稳，后者会出现更明显的表示塌缩倾向，印证“二阶结构信息”在跨层对齐中的必要性。
MIRAGE-T 的意义不只是小模型可用，而是证明“合理分解 + 合理对齐”能让 6M 级别模型逼近或超过 25M+ 方案。
在复合退化与零样本设置中的持续优势，说明该方法学到的不是单任务技巧，而是跨退化可迁移表征。

亮点与洞察¶

把“通道冗余”从剪枝视角转成“功能重分配”视角，是这篇文章最有方法论价值的点。它避免了“剪完变轻但变弱”的常见问题。
SPD 对比学习的落地方式很务实：训练期引入，推理期零额外成本。很多几何方法理论漂亮但工程代价高，本文在这点上取了较好的平衡。
消融结构设计非常完整，覆盖了分支、融合、对比损失和欧氏/SPD 对比替代，能让读者清楚看到每个部件的边际贡献。
复合退化（CDD11）和零样本水下这两个场景的结果很关键，它们比单一基准更接近真实部署问题，说明方法不仅“榜单好看”，也具备实用潜力。

局限与展望¶

作者承认的局限是去模糊任务上仍略落后于个别更大模型，说明当前容量配置对某些强结构退化还不够充裕。
SPD 正则目前本质上仍是“SPD 特征后投影到欧氏空间做 InfoNCE”，并非完整黎曼几何优化；理论上还有继续提升空间。
模型里 CNN/Attention/MLP 的通道比例是固定切分，未做到按退化类型自适应分配，可能限制了极端场景下的最优性。
训练数据仍以合成退化为主，虽然有零样本与真实数据补充，但在更复杂相机 ISP 链路下的稳定性仍需更大规模验证。

可行的后续方向： - 做退化感知的动态通道配比，让三分支容量可随输入自适应。
- 探索更严格的 SPD 流形距离或 geodesic 对比目标，进一步减少表征塌缩。
- 针对去模糊单独设计更强的跨尺度约束，同时保持总体轻量化。

评分¶

新颖性: ⭐⭐⭐⭐☆ 通道功能分解与 SPD 跨层对齐的组合有清晰新意，尤其是“冗余重分配”视角。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 3/5 退化、复合退化、恶劣天气、零样本和完整消融，证据链较扎实。
写作质量: ⭐⭐⭐⭐☆ 方法动机和消融解释比较清楚，工程细节也给得充分。
价值: ⭐⭐⭐⭐⭐ 在 all-in-one IR 里给出了可复用的高效设计范式，兼顾学术与落地价值。