Multi-Scale Gradient-Guided Unrolling Architecture with Adaptive Mamba for Compressive Sensing¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/（论文称已开源 MambaCS，具体地址⚠️以原文为准）
领域: 图像恢复 / 压缩感知重建
关键词: 压缩感知, 深度展开网络, Mamba, 梯度引导, 近端梯度下降

一句话总结¶

MambaCS 把经典近端梯度下降（PGD）算法在多个特征尺度上展开成一个 U 形深度网络，用定制的自适应状态空间块（A-SSB）替换传统展开网络里的卷积/Transformer 模块，并重新设计梯度注入（HDGF）与近端算子（FAPO），在多个压缩感知重建数据集上以相近参数量取得 SOTA 的 PSNR/SSIM。

研究背景与动机¶

领域现状：压缩感知（CS）用远低于奈奎斯特率的测量 \(y=\Phi x\) 去重建信号 \(x\)。深度展开网络（DUN）把传统优化求解器（如 PGD、ISTA）的迭代过程"展开"成网络的逐级模块，既保留了优化算法的可解释性与数据保真，又借了深度学习的拟合能力，是目前 CS 重建的主流范式。

现有痛点：作者把现有 DUN 的毛病归纳为三条——① 跨阶段特征同质化：每一级迭代模块结构僵硬、重复，提取的特征缺乏多样性；② 梯度引导信息注入低效：传统 DUN 在图像域用单通道矩阵运算实现梯度下降步，带宽受限形成"信息瓶颈"，迭代间特征不可逆地丢失；③ 空间维度特征提取不足：CNN 感受野局部、Transformer 计算量随分辨率二次增长，二者在"全局感受野 vs 计算效率"之间只能二选一。

核心矛盾：DUN 想同时要可解释性（贴着 PGD 迭代结构走）、重建质量（强特征提取）和效率（线性复杂度的全局建模），但传统模块设计让这三者互相牵制。

本文目标：在保持 PGD 展开可解释性的前提下，设计一个既有全局感受野、又是线性复杂度、还能把梯度引导信息稳定注入多尺度的展开架构。

切入角度：作者注意到 Mamba（选择性状态空间模型）能以线性复杂度建模长程依赖，正好补上 CNN/Transformer 的短板，于是把 Mamba 引入 DUN——这是首次把 Mamba 用进 CS 的深度展开。

核心 idea：以自定义的 A-SSB（Mamba + 通道注意力）为基本砖块，在多尺度 U 形结构里展开 PGD，并重写 PGD 的梯度步（HDGF）和近端步（FAPO），让两者都借助 A-SSB 的全局自适应感知。

方法详解¶

整体框架¶

MambaCS 由一个采样阶段 + \(2t\) 个重建阶段组成（默认 \(t=4\)，即 8 级）。采样阶段把单通道图像分成 \(B\times B\) 块（\(B=128\)）做无偏全局卷积得到测量值 \(y\)；重建阶段先用转置卷积初始化得到 \(x_f\)，再经卷积投影 ConvF 得到 \(x^{(0)}\)，然后送入一个深度为 \(t\) 的 U 形 PGD 迭代网络 UPIN——它用 Pixel Shuffle / Unshuffle 做上/下采样实现多尺度，每一级恰好对应一次 PGD 迭代，含两个子模块：HDGF（对应梯度下降步 \(s^{(k)}\)）和 FAPO（对应近端映射 \(x^{(k+1)}\)）。最后经逆卷积投影 ConvB 加残差得到重建图像 \(\hat{x}\)。A-SSB 是贯穿 HDGF 与 FAPO 的共享构件。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像 x"] --> B["采样：分块 + 全局卷积<br/>y = FS(FB(x))"]
    B --> C["初始化：转置卷积 + ConvF<br/>得到 x⁽⁰⁾"]
    C --> D["多尺度 U 形展开 UPIN<br/>2t 级 PGD 迭代 + Shuffle 上/下采样"]
    D --> E["HDGF 高维梯度融合<br/>多通道梯度引导注入（梯度下降步）"]
    E --> F["FAPO 特征自适应近端算子<br/>A-SSB 当可学习稀疏基（近端映射步）"]
    G["A-SSB：VSSB(Mamba SS2D)<br/>+ GCAB(通道注意力)"] -.共享构件.-> E
    G -.共享构件.-> F
    F --> H["ConvB + 残差<br/>重建图像 x̂"]

关键设计¶

1. 多尺度 U 形展开架构（UPIN）：让每级迭代看不同尺度，打破跨阶段特征同质化

针对痛点①——传统 DUN 每级在同一分辨率上重复同质模块。MambaCS 把 \(2t\) 级 PGD 迭代排成 U 形：前 \(t\) 级逐级下采样（Pixel Unshuffle），后 \(t\) 级逐级上采样（Pixel Shuffle）并与对称级做跳连相加。这样不同迭代级天然工作在不同特征尺度上，特征增益按"边缘纹理 → 全局结构 → 边缘纹理"的轨迹演化（作者可视化验证），而不是每级都提同一种特征。整体重建写作 \(x^{(2t)}=\mathrm{UPIN}(x^{(0)})+x^{(0)}\)，\(\hat{x}=\mathrm{ConvB}(x^{(2t)})+x_f\)，残差结构保证训练稳定。

2. HDGF 高维梯度融合：把单通道梯度步升维成多通道引导，消除信息瓶颈

针对痛点②——传统 DUN 直接用 \(s^{(k)}=x^{(k)}-\rho^{(k)}\Phi^{\top}(\Phi x^{(k)}-y)\) 实现梯度下降，单通道矩阵运算带宽太窄。作者先把该式展开成 \(s^{(k)}=x^{(k)}-\rho^{(k)}\Phi^{\top}\Phi x^{(k)}+\rho^{(k)}\Phi^{\top}y\)，识别出三个关键量 \(x^{(k)}\)、\(\Phi^{\top}\Phi x^{(k)}\)、\(\Phi^{\top}y\)，沿通道维拼接后过一个"深度卷积(DConv) + A-SSB + Sigmoid"结构生成梯度引导信息再从 \(x^{(k)}\) 中减去：

\[s^{(k)}=x^{(k)}-\rho^{(k)}\,F_{\text{grad}}\!\big(F_{\text{concat}}(x^{(k)},\,\Phi^{\top}\Phi x^{(k)},\,\Phi^{\top}y)\big),\quad F_{\text{grad}}(\cdot)=\mathrm{Sigmoid}(\text{A-SSB}(\mathrm{DConv}(\cdot))).\]

这样梯度引导在高维特征空间里被持续、稳定地注入，既保留 PGD 的数据保真语义，又避免了迭代间特征的不可逆丢失。

3. FAPO 特征自适应近端算子：用 A-SSB 当可学习稀疏基替代固定软阈值

针对痛点③以及传统近端步对固定正交稀疏基 \(\Psi\) 的依赖。经典 PGD 近端步是 \(x^{(k+1)}=\Psi^{\top}\mathrm{Soft}(\Psi s^{(k)},\theta^{(k)})\)，要求 \(\Psi\) 正交，实际很难满足。FAPO 把前向算子 \(\Psi\) 换成 A-SSB、把逆算子 \(\Psi^{\top}\) 换成 A-SSB\(^{\top}\)（前向算子的逆过程），中间夹一个软阈值收缩：

\[x^{(k+1)}=\text{A-SSB}^{\top}\!\big(\mathrm{Soft}(\text{A-SSB}(s^{(k)}),\theta^{(k)})\big).\]

A-SSB 提供跨空间-通道的全局自适应注意力，相当于把稀疏基做成对多尺度特征敏感的可学习版本，从而显著改善细节重建。

4. A-SSB 自适应状态空间块：用 Mamba 同时拿全局感受野和线性复杂度

A-SSB 是 HDGF 和 FAPO 共用的核心砖块，由两部分组成：VSSB（Mamba 视觉状态空间块）做空间长序列建模——双分支结构，一支经 LN→Linear→DConv→SiLU→SS2D，SS2D 用四方向扫描（左上↔右下、右上↔左下）把 2D 特征展成 4 条 1D 序列分别过状态空间方程再求和重组，另一支做门控，两支逐元素相乘后线性投影；GCAB（门控通道注意力块）做跨通道聚合，用 DConv 生成 Q/K/V，注意力 \(\mathrm{Attention}(Q,K,V)=V\cdot\mathrm{Softmax}(K^{\top}Q/\alpha)\)（\(\alpha\) 为可学习缩放），再接双路 GELU 门控。VSSB 专注空间、GCAB 专注通道，二者协同让 A-SSB 以线性复杂度获得近全局的有效感受野（ERF 可视化显示即便采样核降到 32 也优于对比方法）。

损失函数 / 训练策略¶

仅用最简单的均方误差（MSE）约束重建图像与真值：\(\mathcal{L}(A,W^{1\sim 2t})=\frac{1}{N}\sum_{i=1}^{N}\|\hat{x}_i-x_i\|_2^2\)，其中 \(W^{1\sim2t}\) 为全部可训练参数（含可学习采样矩阵 \(A\)）。默认 8 级、通道配置 \([32,64,128,256]\)、采样核 128。

实验关键数据¶

主实验¶

在 General100、LIVE29、OST300、Set14、BSD68 等数据集、CS 率 \(\tau\in\{0.01,0.04,0.10,0.25\}\) 下，MambaCS 在 PSNR/SSIM 上几乎全面超过 11 个对比方法（TransCS、DGU-Net+、OCTUF、NesTD-Net、CPP-Net 等）。下表摘录 General100 上的平均结果：

方法	General100 平均 PSNR(dB)	General100 平均 SSIM
OCTUF (CVPR2023)	30.67	0.8305
NesTD-Net (TIP2024)	30.74	0.8292
CPP-Net (CVPR2024)	31.17	0.8427
MambaCS（本文）	31.71	0.8447

在 General100、\(\tau=0.04\) 这一设置下，MambaCS 相比 TransCS / DPC-DUN / OCTUF 分别提升约 2.39dB(8.77%) / 3.03dB(11.39%) / 1.29dB(4.55%)。视觉上 MambaCS 在低 CS 率下伪影更少、边缘细节更锐利。

消融实验¶

作者通过 Net-1～Net-8 逐项替换/移除组件（Tab.2/Tab.3），在 Set11 等数据集、\(\tau=0.10\) 下评估：

配置	改动	Set11 PSNR(dB)	参数量(M)
MambaCS（完整）	—	31.94	44.91
Net-5	去掉 HDGF 中的 A-SSB	31.40	41.12
Net-6	去掉 FAPO 中的 GCAB	31.14	38.43
Net-7	去掉 FAPO 中的 VSSB	31.22	40.02
Net-8	去掉通道自适应阈值收缩(CAT)	31.44	44.90
Net-1	采样核 KS=32	30.27	18.17

关键发现¶

去掉 FAPO 中的 GCAB（Net-6）掉点最多（Set11 −0.80dB），说明通道注意力对近端映射的细节恢复贡献最大；VSSB（Net-7，−0.72dB）次之，两者印证 A-SSB"空间+通道"双路设计缺一不可。
采样核从 128 降到 32（Net-1）虽掉点明显，但参数量从 ~45M 降到 18M，且其 ERF 仍优于对比方法，说明 A-SSB 带来的全局感受野不强依赖大采样核。
MambaCS 与 CPP-Net 参数量相近（~45M）却全面领先，提升来自结构设计而非单纯堆参数。

亮点与洞察¶

首次把 Mamba 引入 CS 深度展开：用线性复杂度的选择性状态空间模型解决"全局感受野 vs 计算效率"的老矛盾，是可迁移到其他逆问题（MRI、快照压缩成像、高光谱）的范式。
把 PGD 的梯度步代数展开后再升维注入（HDGF）：先在数学上把 \(\Phi^{\top}\Phi x\)、\(\Phi^{\top}y\) 拆出来当显式输入通道，再交给网络融合——既不丢可解释性，又突破单通道带宽，是"保物理结构 + 加表达力"的巧思。
A-SSB 当可学习稀疏基（FAPO）：把经典近端算子里需要正交的固定基 \(\Psi\) 直接替换成可学习的前向/逆向 Mamba 算子，绕过正交性难以满足的工程困境。

局限与展望¶

参数量偏大（~45M），相比早期 DUN 不算轻量；A-SSB 在 HDGF 与 FAPO 中反复调用，实际推理速度/显存开销论文正文未充分给出（⚠️ 以原文/补充材料为准）。
代码地址在正文仅以"MambaCS"占位，是否完整开源需确认（⚠️ 以原文为准）。
评测集中在自然图像 CS 重建；论文提到 MRI、高光谱等应用，但未在这些真实医学/遥感场景上验证，跨域泛化待考。
SS2D 四方向扫描、双 A-SSB 设计的具体复杂度-精度权衡可进一步剪裁（Net-1 已显示降采样核可大幅省参）。

评分¶

新颖性: ⭐⭐⭐⭐ 首次将 Mamba 引入 CS 深度展开，HDGF/FAPO 的重写有巧思，但"展开网络换骨干"的大思路有迹可循
实验充分度: ⭐⭐⭐⭐ 多数据集多 CS 率全面对比 + 细粒度组件消融 + ERF/特征可视化，较扎实
写作质量: ⭐⭐⭐⭐ 公式与物理含义对应清晰，三大痛点-设计一一对应；部分模块细节散落在图与补充材料
价值: ⭐⭐⭐⭐ 在 CS 重建上稳定刷新 SOTA，范式可迁移到 MRI/高光谱等逆问题