Mamba-Adaptor: State Space Model Adaptor for Visual Recognition¶
会议: CVPR 2025
arXiv: 2505.12685
代码: 无
领域: 模型压缩 / 高效适配
关键词: Mamba适配器, 状态空间模型, 可学习记忆选择, 多尺度空间卷积, 迁移学习
一句话总结¶
提出 Mamba-Adaptor,通过两个模块增强 Vision Mamba/SSM:Adaptor-T(时序)用可学习记忆选择机制保留关键历史状态,Adaptor-S(空间)用多尺度空心深度卷积增强空间局部性,在 ImageNet 上 83.0% Top-1(Mamba-Adaptor-b2),检测/分割+迁移学习全面提升。
研究背景与动机¶
领域现状¶
领域现状:Vision Mamba 等 SSM 模型以线性复杂度处理长序列,但两个固有缺陷限制了其视觉性能:(1)固定的状态衰减机制导致重要历史信息被遗忘;(2)1D 序列处理忽略了图像的 2D 空间结构。
现有痛点:SSM 中选择性状态衰减(\(\Delta, A, B\) 参数)是数据驱动的,但没有显式机制保护关键历史状态不被衰减。远距离 token 的影响随时间指数衰减,即使它们包含重要信息。
核心矛盾:SSM 的线性效率来源于递推结构(只保留隐状态),但这与保留丰富历史信息相矛盾。
切入角度:在 SSM 的隐状态上加可学习的记忆选择层——用线性层预测 K 个关键状态的坐标并保留,多序列聚合不同尺度的时序信息。
核心 idea:可学习记忆选择(时序)+ 多尺度空心卷积(空间)= SSM 的轻量增强适配器。
方法详解¶
关键设计¶
-
Adaptor-T(时序增强):
- 功能:在 SSM 状态中保留关键历史信息
- 核心思路:线性预测层从当前隐状态中选择 K 个关键坐标,提取对应的状态值保留。多序列(S 个)各自维护不同粒度的记忆窗口,聚合后注入回 SSM
- 设计动机:消融显示可学习选择比静态选择好 +0.3% ImageNet,多尺度比单尺度好 +0.2-0.7%
-
Adaptor-S(空间增强):
- 功能:恢复 SSM 丢失的 2D 空间局部性
- 核心思路:多尺度空心(dilated)深度卷积在不同感受野上提取局部空间特征,与 SSM 全局特征融合
- 设计动机:SSM 将 2D 图像展平为 1D 序列,破坏了局部空间关系
损失函数 / 训练策略¶
标准分类/检测损失。迁移学习时权重共享减少 94% 参数。Adaptor 增加 <7% FLOPs。
实验关键数据¶
主实验¶
| 模型 | ImageNet Top-1 | COCO Box AP |
|---|---|---|
| VMamba-T | 82.6% | 45.3% |
| Swin-T | 81.3% | - |
| Mamba-Adaptor-b2 | 83.0% | 49.1% |
消融实验¶
| 配置 | ImageNet | 说明 |
|---|---|---|
| 静态选择 | 82.7% | — |
| 可学习选择 | 83.0% | +0.3% |
| 单尺度 | 82.3% | — |
| 多尺度 | 83.0% | +0.7% |
关键发现¶
- 时序和空间增强各自贡献约 0.3%,合计 0.4%(有重叠)
- 迁移学习仅 9.25% 参数即达全量微调 99% 性能
- COCO 检测 +3.8% AP(49.1 vs 45.3),说明空间局部性对检测尤为重要
亮点与洞察¶
- 为 SSM 的两个根本缺陷提供了轻量解法——不改变 SSM 核心架构,只加适配器
- 迁移学习的高效性——94% 参数节省且性能接近全量微调
局限与展望¶
- 大模型规模未探索
- 仅适用于 Mamba/SSM 变体
- 计算开销虽小但仍增加 7%
评分¶
- 新颖性: ⭐⭐⭐ 可学习记忆选择新颖,但整体框架偏工程
- 实验充分度: ⭐⭐⭐⭐ 分类/检测/分割/迁移多任务
- 写作质量: ⭐⭐⭐⭐ 清晰
- 价值: ⭐⭐⭐ 增量性提升,对 SSM 社区有参考价值