VSRM: A Robust Mamba-Based Framework for Video Super-Resolution¶

会议: ICCV 2025
arXiv: 2506.22762
代码: 无
领域: Image Restoration / Video Super-Resolution
关键词: 视频超分辨率, Mamba, 状态空间模型, 可变形对齐, 频域损失

一句话总结¶

首次将 Mamba 引入视频超分辨率任务，提出双聚合 Mamba 模块（DAMB）捕获时空长程依赖、可变形交叉 Mamba 对齐模块（DCA）增强帧间对齐灵活性，以及频域 Charbonnier 损失（FCL）改善高频细节恢复，在 REDS4/Vid4/Vimeo-90K 上取得 SOTA。

研究背景与动机¶

视频超分辨率（VSR）旨在从低分辨率视频生成高分辨率帧，需要利用多帧互补信息。当前方法主要基于 CNN 或 Transformer：

CNN 方法（如 BasicVSR）受限于局部感受野，无法有效捕获远距离帧间信息
Transformer 方法（如 PSRT、IART）提供了强大的注意力机制，但全注意力的二次复杂度使其在长序列处理中不实际；窗口注意力虽降低复杂度，但感受野仍受限
对齐模块：现有方法多使用双线性/最近邻插值进行空间对齐，固定权重导致特征畸变；IART 虽提出基于注意力的隐式插值，但在固定参考窗口内计算，灵活性不足
损失函数：像素级损失过于平滑，感知损失引入更大失真；VSR 是病态问题，重建帧与 GT 之间的差异在频域中尤为明显

Mamba 以线性复杂度实现长序列建模和数据依赖特性，非常适合 VSR 场景。本文首次探索 Mamba 在 VSR 中的应用。

方法详解¶

整体框架¶

VSRM 由两部分组成：特征提取（Conv2d + 特征传播模块 FPB）和上采样器（重建模块）。FPB 包含可变形交叉 Mamba 对齐（DCA）和双聚合 Mamba 模块（DAMB），先对齐相邻帧特征，再提取深层时空特征，最后通过上采样器生成高分辨率输出。

关键设计¶

双聚合 Mamba 模块 (DAMB)：由 N 个 S2TMB 和 1 个 T2SMB 组成，充分建模空间和时间两个维度的长程依赖。
- S2T-Mamba（空间到时间）：将 3D 视频序列展平为 1D 序列，采用空间优先→时间的扫描顺序，使用前向和反向双向 SSM 处理，公式：$S2T\text{-}Mamba(x,z) = Linear(x_1 \odot z + x_2 \odot z)$
- T2S-Mamba（时间到空间）：采用时间优先→空间的扫描顺序，仅使用单向前向扫描。实验表明 S2TMB 偏重空间信息提取，T2SMB 显式优先提取时间信息，二者互补
- TGFN（时间门控前馈网络）：包含 3D 深度可分离卷积和门控机制，替代标准 FFN，更好地建模时空相邻像素关系并优化信息流
可变形交叉 Mamba 对齐 (DCA)：使用 SpyNet 估计光流，在补偿阶段引入可变形窗口方案。核心思路：
- 对每个目标像素，根据光流在参考帧中定位采样点
- 在采样位置周围构建窗口 $w$，初始化参考区域 $r$
- 通过可学习偏移网络 $\mathcal{S}(w)$ 学习偏移 $\epsilon_r$，获得动态参考区域 $\bar{r} = \phi(w; r + \epsilon_r)$
- 通过 cross-mamba 模块融合参考点与目标点信息完成对齐：$\bar{X}(x,y) = cross\text{-}mamba(R, Q)$
- cross-mamba 基于 SSM 递推：$H_t = \bar{A}_R H_{t-1} + \bar{B}_R \bar{R}_t, \bar{X}_t = C_Q H_t$
频域 Charbonnier 损失 (FCL)：在频域中分别计算实部和虚部的 Charbonnier 损失，而非使用幅度/相位（避免平方根和反正切函数带来的不连续性）。公式：

$$\mathcal{L}_{FCL} = \sum_{i \in \{Re, Im\}} \lambda_i \sqrt{\|i\mathcal{F}(\mathbf{I}_{SR}) - i\mathcal{F}(\mathbf{I}_{HR})\|^2 + \epsilon^2}$$

损失函数 / 训练策略¶

总损失为空间域 Charbonnier 损失与频域 FCL 的加权组合：

\[\mathcal{L}_{total} = \lambda \mathcal{L}_{CL} + \mathcal{L}_{FCL}\]

其中 $\lambda = 1.0$，$\lambda_{Re} = \lambda_{Im} = 0.02$，$\epsilon = 10^{-3}$。训练集使用 REDS 和 Vimeo-90K。

实验关键数据¶

主实验¶

方法	输入帧数	参数量(M)	REDS4 PSNR	REDS4 SSIM	Vid4 PSNR	Vid4 SSIM
BasicVSR++	30/14	7.3	32.39	0.9069	27.79	0.8400
VRT	16/7	35.6	32.19	0.9006	27.93	0.8425
RVRT	30/14	10.8	32.75	0.9113	27.99	0.8462
PSRT-rec	16/14	13.4	32.72	0.9106	28.07	0.8485
IART	16/7	13.4	32.90	0.9138	28.26	0.8517
VSRM	16/7	17.1	33.11	0.9162	28.44	0.8552

VSRM 在 REDS4 上比 IART 提升 0.21dB（16帧设置），在 Vid4 上提升 0.18dB，同时也在 Vimeo-90K-T 上取得最优 38.33dB。

消融实验¶

消融项	PSNR (dB)	参数量(M)	FLOPs(G)
3D DW-Conv (替换 Mamba)	30.84	19.49	149.8
窗口注意力 (替换 Mamba)	30.97	7.68	152.4
全注意力 (替换 Mamba)	31.06	7.68	1018.1
Mamba (ours)	31.09	8.61	159.2
无 DCA 对齐	30.87	8.53	120.4
FGDA 对齐	30.92	8.70	154.3
IA 对齐	31.00	8.57	148.7
DCA 对齐 (ours)	31.09	8.61	159.2
无 T2SMB	30.95	7.87	155.6
T2SMB (双向)	31.02	8.65	162.2
T2SMB (单向, ours)	31.09	8.61	159.2
FFN	30.90	8.68	136.2
TGFN (ours)	31.09	8.61	159.2
无 FCL (λ=0)	30.97	-	-
FCL (λ=0.02)	31.09	-	-

关键发现¶

Mamba 在达到与全注意力相似 PSNR 的同时，FLOPs 仅为其 1/6 (159G vs 1018G)
DCA 比 FGDA 和 IA 对齐分别提升 0.17dB 和 0.09dB，验证了可变形窗口机制的优势
T2SMB 补充了 S2TMB 不足的时间信息提取（+0.14dB），且单向扫描优于双向
移除 FCL 损失导致 0.12dB 下降，证明频域约束对高频细节恢复的重要性
VSRM 的有效感受野（ERF）远大于 CNN 和 Transformer 方法

亮点与洞察¶

首次 Mamba + VSR：成功验证 Mamba 在视频超分辨率中的可行性，兼具线性复杂度和全局感受野
S2T 和 T2S 互补扫描：将空间优先和时间优先两种扫描策略组合，完整提取时空特征，是 VSR 特有的 Mamba 适配方案
DCA 的可变形参考区域：不同于固定窗口的隐式对齐，通过学习偏移动态调整参考区域，更好地处理运动幅度差异
FCL 损失设计简洁有效：直接在实/虚部上计算 Charbonnier 损失，避免了幅度/相位计算的数值不稳定问题

局限与展望¶

参数量（17.1M）和运行时间（223ms）略高于 PSRT/IART（13.4M, 173-180ms），Mamba 的加速优化仍在探索中
仅探索了 4× 超分任务，未验证其他缩放因子和降质模型
Mamba 在视觉领域的加速库和硬件支持不如 Transformer 成熟
可进一步扩展到其他低级视觉任务（去模糊、去噪、着色等）

评分¶

新颖性: ⭐⭐⭐⭐ 首次将 Mamba 引入 VSR，双向扫描和 DCA 设计有创新
实验充分度: ⭐⭐⭐⭐⭐ 消融覆盖每个模块，多指标多数据集对比
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富
价值: ⭐⭐⭐⭐ 为 Mamba 在低级视觉的应用提供了坚实 baseline