M3SR: Multi-Scale Multi-Perceptual Mamba for Efficient Spectral Reconstruction¶

会议: AAAI 2026
arXiv: 2601.08293
代码: https://github.com/zhangyuzecn/M3SR
领域: 遥感/高光谱图像重建
关键词: Spectral Reconstruction, Mamba, State Space Model, Multi-Scale, Hyperspectral Imaging

一句话总结¶

提出 M3SR，一种基于 Mamba 的多尺度多感知架构，通过空间-频率-光谱三分支并行融合结合 U-Net 多尺度结构，以 2.17M 参数和 100.9G FLOPs 的低计算代价在四个光谱重建基准上超越现有 SOTA 方法。

研究背景与动机¶

高光谱成像（HSI）通过窄波段采集丰富的空间-光谱信息，广泛应用于环境监测、医学成像和农业等领域。然而直接采集 HSI 成本高昂且过程复杂，因此光谱重建（SR）——从 RGB 图像生成 HSI——成为重要的替代方案。

现有 SR 方法存在明确的发展脉络和局限： - 传统方法（稀疏字典、高斯过程、低秩表示）难以识别复杂模式 - CNN 方法（HSCNN+、HRNet）提升了性能，但难以捕获长程依赖 - Transformer 方法（MST++、ESSAformer）能建模长程关系，但计算复杂度随图像尺寸急剧增长

Mamba 架构基于状态空间模型（SSM），能以线性复杂度处理长序列，但现有 Mamba SR 方法面临两个核心挑战： 1. 单一空间感知限制了对高光谱图像的全面理解 2. 单一尺度特征提取难以同时捕获复杂结构和精细细节

M3SR 的核心思路是：设计多感知融合模块（MPF block），将空间、频率、光谱三种感知集成到一个统一块中，再将其嵌入 U-Net 实现多尺度特征提取与融合。

方法详解¶

整体框架¶

M3SR 采用基于 U-Net 的编码器-解码器结构： 1. 输入端：接收 RGB 图像，通过浅层特征提取得到初始特征 2. 编码器路径：通过下采样逐步提取多尺度语义特征，分为三个尺度： - 全局尺度：捕获整体结构信息 - 中间尺度：聚焦上下文信息 - 局部尺度：恢复精细纹理信息 3. 解码器路径：通过上采样恢复空间分辨率，结合跳跃连接融合多尺度特征 4. 输出端：生成重建后的高光谱图像

每个尺度级别的核心构建块是多感知融合块（MPF Block），包含空间、频率、光谱三个并行分支。

关键设计¶

设计一：多感知融合块（MPF Block）—— 三分支并行感知

MPF Block 包含三个并行分支，分别针对不同维度的信息：

（1）空间感知分支：基于 VMamba 的 2D 选择性扫描（SS2D）技术，将 2D 图像展开为 1D 序列，沿四个方向扫描以捕获长程空间依赖。VSS 块定义为：

\[VSS(x) = Lin(LN(SS2D(x')))$$ $$x' = SiLU(DWConv(Lin(x)))\]

空间分支通过 reshape 和 concat 操作增强空间特征：

\[\mathbf{F}_a^2 = Reshape(Concat(VSS(LN(\mathbf{F}_a^1)), \mathbf{F}_a^1))\]

（2）频率感知分支：使用离散小波变换（DWT）将输入分解为低频（$I_{LL}$）和三个高频分量（$I_{LH}, I_{HL}, I_{HH}$），分别捕获纹理细节：

\[\mathbf{F}_f^1 = DWT(\mathbf{F}_{in})$$ $$\mathbf{F}_f^2 = IDWT(Concat(VSS(LN(\mathbf{F}_f^1)), \mathbf{F}_f^1))\]

（3）光谱感知分支：基于原始 Mamba 块建模光谱维度的连续性依赖。将通道维度 $C$ 扩展为 $C \times G$，分组后用 Mamba 块提取光谱交互特征：

\[\mathbf{F}_e^1 = Mamba(Reshape(Conv(\mathbf{F}_{in})))$$ $$\mathbf{F}_e^2 = Conv(Reshape(\mathbf{F}_e^1))\]

其中 Mamba 块定义为：$Mamba(x) = Lin(x' + x'')$，$x' = SiLU(Lin(x))$，$x'' = S6(SiLU(DWConv(Lin(x))))$，S6 为选择性 SSM。

设计二：自适应融合机制

三分支的输出通过可学习权重进行自适应加权融合，并加入残差连接：

\[\mathbf{F}_{out} = \omega_a \cdot \mathbf{F}_a^2 + \omega_f \cdot \mathbf{F}_f^2 + \omega_e \cdot \mathbf{F}_e^2 + \mathbf{F}_{in}\]

其中 $\omega_a, \omega_f, \omega_e$ 随机初始化并通过反向传播更新。与简单的均匀融合或串行融合不同，自适应权重允许模型动态调整三种感知的重要性。

设计三：多尺度 U-Net 集成

将 MPF Block 嵌入 U-Net 对称结构，通过下采样-上采样和跳跃连接实现全局、中间、局部三尺度的特征提取与融合，兼顾全局语义一致性和局部纹理细节。

损失函数 / 训练策略¶

使用 MAE（平均绝对误差）作为损失函数：

\[L = \frac{1}{H \times W \times C} \sum_{i=1}^{H} \sum_{j=1}^{W} \sum_{k=1}^{C} |Z_{i,j,k} - \hat{Z}_{i,j,k}|\]

训练采用 Adam 优化器（$\beta_1=0.9, \beta_2=0.999$），初始学习率 0.0004，余弦退火调度 100 epochs。数据增强包括随机旋转和翻转，批大小 32，裁剪 128×128 patch。单卡 NVIDIA 4090 训练。

实验关键数据¶

主实验¶

NTIRE2022 & CAVE 数据集结果：

方法	Params(M)	FLOPs(G)	NTIRE2022 PSNR↑	NTIRE2022 RMSE↓	CAVE PSNR↑	CAVE RMSE↓
HSCNN+	1.642	808.0	25.26	0.058	33.81	0.0227
HRNet	31.705	1249.0	25.22	0.0577	34.53	0.0205
MST++	1.62	177.7	30.18	0.035	34.65	0.0205
GMSR	0.019	8.0	26.92	0.0492	34.58	0.0206
M3SR	2.166	100.9	31.40	0.0343	35.61	0.0184

NTIRE2020 数据集结果：

方法	NTIRE2020-Clean PSNR↑	NTIRE2020-Real PSNR↑	Clean RMSE↓	Real RMSE↓
MST++	36.32	35.63	0.0198	0.0185
HSRNet	37.17	34.55	0.0198	0.0213
GMSR	33.97	31.90	0.0239	0.0278
M3SR	37.71	36.35	0.0196	0.0171

M3SR 在 NTIRE2022 上 PSNR 达到 31.40dB（超越 MST++ 的 30.18dB 约 1.2dB），同时 FLOPs 仅 100.9G（MST++ 为 177.7G），参数量仅 2.166M。

消融实验¶

多感知分支消融（NTIRE2022）：

变体	空间	频率	光谱	PSNR↑	RMSE↓	SAM↓	MSSIM↑
M3SR-V1	✗	✓	✓	30.49	0.0381	12.55	0.8827
M3SR-V2	✓	✗	✓	30.59	0.0365	6.52	0.9315
M3SR-V3	✓	✓	✗	30.36	0.0369	6.28	0.9241
M3SR	✓	✓	✓	31.40	0.0343	6.62	0.9351

移除空间分支导致 SAM 急剧恶化至 12.55（完整模型为 6.62），PSNR 下降约 0.9dB。

分组数 G 消融：

G	PSNR↑	RMSE↓	Params(M)	FLOPs(G)
2	31.23	0.0351	2.066	91.3
4	31.40	0.0343	2.166	100.9
8	30.64	0.0372	2.368	120.1
16	30.76	0.0361	2.770	158.6

G=4 在性能和效率之间取得最佳平衡。

关键发现¶

空间感知分支对光谱角度（SAM）影响最大，移除后 SAM 从 6.62 飙升至 12.55
频率感知分支对 MSSIM 贡献显著，移除后 MSSIM 从 0.9351 降至 0.9315
M3SR 以 100.9G FLOPs 超越 FLOPs 高达 5819.5G 的 FMNet，效率提升约 57 倍

亮点与洞察¶

三分支并行设计将空间（SS2D）、频率（DWT）、光谱（原始 Mamba）三种互补感知统一在一个模块中，是对 Mamba 在底层视觉任务中应用的系统性扩展
自适应加权融合比简单拼接或求和更灵活，允许不同尺度和数据集上动态调整各感知的贡献
在保持极低计算开销的同时取得 SOTA，特别适合资源受限的高光谱应用场景

局限与展望¶

仅使用 MAE 损失，未探索感知损失、频率域损失等可能进一步提升重建质量的策略
消融仅在 NTIRE2022 上进行，缺乏跨数据集的消融验证
DWT 固定使用 Haar 小波，未探索其他小波基的影响
光谱分组数 G 作为超参数需要手动调节，缺乏自适应选择机制

评分¶

新颖性: ⭐⭐⭐⭐ 三分支多感知 Mamba 融合是对 SSM 底层视觉应用的系统性创新
实验充分度: ⭐⭐⭐⭐ 四个数据集、十种 SOTA 对比、完整消融实验和参数分析
写作质量: ⭐⭐⭐ 结构清晰但部分公式符号不够统一
价值: ⭐⭐⭐⭐ 为高光谱重建提供了高效实用的 Mamba 方案，有开源代码