M3SR: Multi-Scale Multi-Perceptual Mamba for Efficient Spectral Reconstruction¶
会议: AAAI 2026
arXiv: 2601.08293
代码: https://github.com/zhangyuzecn/M3SR
领域: 遥感/高光谱图像重建
关键词: Spectral Reconstruction, Mamba, State Space Model, Multi-Scale, Hyperspectral Imaging
一句话总结¶
提出 M3SR,一种基于 Mamba 的多尺度多感知架构,通过空间-频率-光谱三分支并行融合结合 U-Net 多尺度结构,以 2.17M 参数和 100.9G FLOPs 的低计算代价在四个光谱重建基准上超越现有 SOTA 方法。
研究背景与动机¶
高光谱成像(HSI)通过窄波段采集丰富的空间-光谱信息,广泛应用于环境监测、医学成像和农业等领域。然而直接采集 HSI 成本高昂且过程复杂,因此光谱重建(SR)——从 RGB 图像生成 HSI——成为重要的替代方案。
现有 SR 方法存在明确的发展脉络和局限: - 传统方法(稀疏字典、高斯过程、低秩表示)难以识别复杂模式 - CNN 方法(HSCNN+、HRNet)提升了性能,但难以捕获长程依赖 - Transformer 方法(MST++、ESSAformer)能建模长程关系,但计算复杂度随图像尺寸急剧增长
Mamba 架构基于状态空间模型(SSM),能以线性复杂度处理长序列,但现有 Mamba SR 方法面临两个核心挑战: 1. 单一空间感知限制了对高光谱图像的全面理解 2. 单一尺度特征提取难以同时捕获复杂结构和精细细节
M3SR 的核心思路是:设计多感知融合模块(MPF block),将空间、频率、光谱三种感知集成到一个统一块中,再将其嵌入 U-Net 实现多尺度特征提取与融合。
方法详解¶
整体框架¶
M3SR 采用基于 U-Net 的编码器-解码器结构: 1. 输入端:接收 RGB 图像,通过浅层特征提取得到初始特征 2. 编码器路径:通过下采样逐步提取多尺度语义特征,分为三个尺度: - 全局尺度:捕获整体结构信息 - 中间尺度:聚焦上下文信息 - 局部尺度:恢复精细纹理信息 3. 解码器路径:通过上采样恢复空间分辨率,结合跳跃连接融合多尺度特征 4. 输出端:生成重建后的高光谱图像
每个尺度级别的核心构建块是多感知融合块(MPF Block),包含空间、频率、光谱三个并行分支。
关键设计¶
设计一:多感知融合块(MPF Block)—— 三分支并行感知
MPF Block 包含三个并行分支,分别针对不同维度的信息:
(1)空间感知分支:基于 VMamba 的 2D 选择性扫描(SS2D)技术,将 2D 图像展开为 1D 序列,沿四个方向扫描以捕获长程空间依赖。VSS 块定义为:
空间分支通过 reshape 和 concat 操作增强空间特征:
(2)频率感知分支:使用离散小波变换(DWT)将输入分解为低频(\(I_{LL}\))和三个高频分量(\(I_{LH}, I_{HL}, I_{HH}\)),分别捕获纹理细节:
(3)光谱感知分支:基于原始 Mamba 块建模光谱维度的连续性依赖。将通道维度 \(C\) 扩展为 \(C \times G\),分组后用 Mamba 块提取光谱交互特征:
其中 Mamba 块定义为:\(Mamba(x) = Lin(x' + x'')\),\(x' = SiLU(Lin(x))\),\(x'' = S6(SiLU(DWConv(Lin(x))))\),S6 为选择性 SSM。
设计二:自适应融合机制
三分支的输出通过可学习权重进行自适应加权融合,并加入残差连接:
其中 \(\omega_a, \omega_f, \omega_e\) 随机初始化并通过反向传播更新。与简单的均匀融合或串行融合不同,自适应权重允许模型动态调整三种感知的重要性。
设计三:多尺度 U-Net 集成
将 MPF Block 嵌入 U-Net 对称结构,通过下采样-上采样和跳跃连接实现全局、中间、局部三尺度的特征提取与融合,兼顾全局语义一致性和局部纹理细节。
损失函数 / 训练策略¶
使用 MAE(平均绝对误差)作为损失函数:
训练采用 Adam 优化器(\(\beta_1=0.9, \beta_2=0.999\)),初始学习率 0.0004,余弦退火调度 100 epochs。数据增强包括随机旋转和翻转,批大小 32,裁剪 128×128 patch。单卡 NVIDIA 4090 训练。
实验关键数据¶
主实验¶
NTIRE2022 & CAVE 数据集结果:
| 方法 | Params(M) | FLOPs(G) | NTIRE2022 PSNR↑ | NTIRE2022 RMSE↓ | CAVE PSNR↑ | CAVE RMSE↓ |
|---|---|---|---|---|---|---|
| HSCNN+ | 1.642 | 808.0 | 25.26 | 0.058 | 33.81 | 0.0227 |
| HRNet | 31.705 | 1249.0 | 25.22 | 0.0577 | 34.53 | 0.0205 |
| MST++ | 1.62 | 177.7 | 30.18 | 0.035 | 34.65 | 0.0205 |
| GMSR | 0.019 | 8.0 | 26.92 | 0.0492 | 34.58 | 0.0206 |
| M3SR | 2.166 | 100.9 | 31.40 | 0.0343 | 35.61 | 0.0184 |
NTIRE2020 数据集结果:
| 方法 | NTIRE2020-Clean PSNR↑ | NTIRE2020-Real PSNR↑ | Clean RMSE↓ | Real RMSE↓ |
|---|---|---|---|---|
| MST++ | 36.32 | 35.63 | 0.0198 | 0.0185 |
| HSRNet | 37.17 | 34.55 | 0.0198 | 0.0213 |
| GMSR | 33.97 | 31.90 | 0.0239 | 0.0278 |
| M3SR | 37.71 | 36.35 | 0.0196 | 0.0171 |
M3SR 在 NTIRE2022 上 PSNR 达到 31.40dB(超越 MST++ 的 30.18dB 约 1.2dB),同时 FLOPs 仅 100.9G(MST++ 为 177.7G),参数量仅 2.166M。
消融实验¶
多感知分支消融(NTIRE2022):
| 变体 | 空间 | 频率 | 光谱 | PSNR↑ | RMSE↓ | SAM↓ | MSSIM↑ |
|---|---|---|---|---|---|---|---|
| M3SR-V1 | ✗ | ✓ | ✓ | 30.49 | 0.0381 | 12.55 | 0.8827 |
| M3SR-V2 | ✓ | ✗ | ✓ | 30.59 | 0.0365 | 6.52 | 0.9315 |
| M3SR-V3 | ✓ | ✓ | ✗ | 30.36 | 0.0369 | 6.28 | 0.9241 |
| M3SR | ✓ | ✓ | ✓ | 31.40 | 0.0343 | 6.62 | 0.9351 |
移除空间分支导致 SAM 急剧恶化至 12.55(完整模型为 6.62),PSNR 下降约 0.9dB。
分组数 G 消融:
| G | PSNR↑ | RMSE↓ | Params(M) | FLOPs(G) |
|---|---|---|---|---|
| 2 | 31.23 | 0.0351 | 2.066 | 91.3 |
| 4 | 31.40 | 0.0343 | 2.166 | 100.9 |
| 8 | 30.64 | 0.0372 | 2.368 | 120.1 |
| 16 | 30.76 | 0.0361 | 2.770 | 158.6 |
G=4 在性能和效率之间取得最佳平衡。
关键发现¶
- 空间感知分支对光谱角度(SAM)影响最大,移除后 SAM 从 6.62 飙升至 12.55
- 频率感知分支对 MSSIM 贡献显著,移除后 MSSIM 从 0.9351 降至 0.9315
- M3SR 以 100.9G FLOPs 超越 FLOPs 高达 5819.5G 的 FMNet,效率提升约 57 倍
亮点与洞察¶
- 三分支并行设计将空间(SS2D)、频率(DWT)、光谱(原始 Mamba)三种互补感知统一在一个模块中,是对 Mamba 在底层视觉任务中应用的系统性扩展
- 自适应加权融合比简单拼接或求和更灵活,允许不同尺度和数据集上动态调整各感知的贡献
- 在保持极低计算开销的同时取得 SOTA,特别适合资源受限的高光谱应用场景
局限与展望¶
- 仅使用 MAE 损失,未探索感知损失、频率域损失等可能进一步提升重建质量的策略
- 消融仅在 NTIRE2022 上进行,缺乏跨数据集的消融验证
- DWT 固定使用 Haar 小波,未探索其他小波基的影响
- 光谱分组数 G 作为超参数需要手动调节,缺乏自适应选择机制
相关工作与启发¶
- vs MST++: M3SR 在 PSNR 上超越 1.2dB 的同时 FLOPs 仅为其 56.8%,证明 Mamba 的线性复杂度优势
- vs GMSR: 同为 Mamba SR 方法,但 GMSR 仅用单一空间 SSM(PSNR 26.92),M3SR 通过多感知融合提升至 31.40,增幅 4.5dB
- vs HRNet: HRNet 参数量 31.7M 远超 M3SR 的 2.17M(约 15 倍),但 PSNR 仅 25.22 vs 31.40
评分¶
- 新颖性: ⭐⭐⭐⭐ 三分支多感知 Mamba 融合是对 SSM 底层视觉应用的系统性创新
- 实验充分度: ⭐⭐⭐⭐ 四个数据集、十种 SOTA 对比、完整消融实验和参数分析
- 写作质量: ⭐⭐⭐ 结构清晰但部分公式符号不够统一
- 价值: ⭐⭐⭐⭐ 为高光谱重建提供了高效实用的 Mamba 方案,有开源代码