MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation¶
会议: CVPR 2025
arXiv: 2509.00649
代码: https://aviralchharia.github.io/MV-SSM (项目页)
领域: 人体理解
关键词: 多视图人体姿态估计, 状态空间模型, Mamba, 跨视图泛化, 投影注意力
一句话总结¶
MV-SSM 首次将状态空间模型(Mamba)引入多视图 3D 人体姿态估计任务,通过 Projective State Space (PSS) 块在特征级和关键点级显式建模关节空间序列,结合 Grid Token-guided Bidirectional Scanning (GTBS),在 CMU Panoptic 上达到 93.5 AP25,并在跨相机/跨场景泛化测试中大幅超越 SOTA。
研究背景与动机¶
-
领域现状:多视图 3D 人体姿态估计的端到端方法(如 MvP、MVGFormer)使用基于注意力的 Transformer 融合多视图特征,取得了不错的精度。传统多阶段方法先检测 2D 关键点再三角化,精度受限于匹配算法和误差累积。
-
现有痛点:(a) 基于注意力的方法容易过拟合训练时的特定相机配置和视觉场景,换到新的相机数量/位置时性能大幅下降;(b) MvP 在跨相机泛化测试中几乎完全失效(AP25 降到 0);(c) 跨注意力在所有 token 上操作计算量大,且对遮挡场景下的关节空间关系建模不够充分。
-
核心矛盾:现有方法的注意力机制缺乏对关节空间序列固有结构的显式建模,导致在未见过的相机配置下泛化能力差。
-
本文要解决什么? 设计一个对相机配置变化具有强泛化能力的多视图 3D 姿态估计框架。
-
切入角度:状态空间模型(SSM)天然擅长捕获序列中元素的长程依赖关系。作者观察到关节点之间存在固有的空间序列关系(如人体的运动链),SSM 可以在特征和关键点两个层面建模这种序列关系。
-
核心idea一句话:用 Mamba 的选择性扫描机制替代纯注意力来建模多视图关节的空间序列关系,同时结合投影注意力进行多视图特征融合。
方法详解¶
整体框架¶
输入 T 个相机视角的 RGB 图像,通过 ResNet-50 backbone 提取多尺度特征,然后通过多层堆叠的 Projective State Space (PSS) 块逐步精炼关键点预测。每层 PSS 块输出 2D 关节偏移量和置信度,最后通过可微分代数三角化得到 3D 关键点。模型采用层级 token 方案减少搜索空间。
关键设计¶
-
Projective State Space (PSS) Block:
- 功能:联合利用投影注意力和状态空间建模来学习关节空间序列和视图间信息融合。
- 核心思路:每个 PSS 块由两部分组成——SS2D 块(Mamba 的视觉适配版本)和投影注意力。投影注意力将 3D 关键点投影到各视图得到锚点,在锚点周围采样可变形点聚合局部上下文(比跨注意力高效得多)。然后 SS2D 块对采样到的 token 进行状态空间建模,捕获关节间的内在空间关系。两者的特征通过残差连接和 FFN 整合。与 Mamba 原始块和 VMamba 的 VSS 块不同,PSS 块专门为关节空间序列设计,不是沿图像 patch 扫描而是沿关节维度扫描。
- 设计动机:投影注意力提供高效的多视图特征融合,但单独使用不能充分开发关节间的相互关系。SSM 补充了这一能力——实验证明去掉 Mamba 块(Row 3),AP25 从 93.5 降到 92.3;去掉 GTBS+Mamba(Row 4),AP25 降到 87.7。
-
Grid Token-guided Bidirectional Scanning (GTBS):
- 功能:在投影采样的 token 上执行高效的双向扫描,编码局部上下文和关节空间序列。
- 核心思路:与朴素的全 patch 扫描不同(计算量大且含大量冗余背景 token),GTBS 仅在投影注意力采样到的特征点上进行 token 级双向扫描。改编自 VMamba 的 SS2D,将扫描维度从图像空间转到关节空间。随着层数增加,关键点逐步精炼,GTBS 扫描到的特征也越来越相关,形成正反馈。
- 设计动机:避免对所有图像 token 扫描的计算浪费;关节的空间序列比图像 patch 序列更适合 SSM 建模(人体骨骼就是一个天然的序列/树结构)。
-
渐进式回归与层级 Token:
- 功能:通过多层 PSS 块逐步精炼 3D 关键点预测。
- 核心思路:初始化 N 个候选 token(每个含视觉特征项 \(\mathbf{V}_n \in \mathbb{R}^{J \times L}\) 和几何项 \(\mathbf{K}_n \in \mathbb{R}^{J \times 3}\)),几何项初始化为地平面上的 T-pose。每层使用 MLP 预测 2D 偏移和置信度,通过可微代数三角化 \(\mathbf{k}' = \text{AlgTriangulation}(\mathbf{u}'_t, \mathbf{c}_t, \mathbf{\Pi}_t)\) 得到 3D 关键点,作为下一层的几何项输入。同时用一个线性分类器过滤掉低置信度的候选 token(阈值 \(\epsilon = 0.1\)),再用 NMS 去重。
- 设计动机:一次性预测不够准确,渐进回归让每层在更准确的投影位置采样特征,形成质量逐步提升的循环。
损失函数 / 训练策略¶
- 姿态损失:\(\mathcal{L}_{\text{pose}} = \sum_{w=1}^{W} (\mathcal{L}_1(\mathbf{K}_{z(w)}, \mathbf{H}_z) + \sum_{t=1}^{T} \mathcal{L}_1(\hat{\mathbf{U}}_{z(w),t}, \mathbf{U}_{z,t}))\),即 3D 关键点 L1 损失 + 各视图 2D 投影 L1 损失
- 分类损失:交叉熵,用于区分正负候选 token
- 每层都施加上述损失
- 使用 COCO 预训练的 ResNet-50,学习率 4e-4,训练 40 个 epoch,早停
实验关键数据¶
主实验¶
| 方法 | 会议 | CMU Panoptic AP25↑ | MPJPE↓ |
|---|---|---|---|
| VoxelPose | ECCV 20 | 84.0 | 17.7 |
| MvP | NeurIPS 21 | 92.3 | 15.8 |
| MVGFormer | CVPR 24 | 92.3 | 16.0 |
| MV-SSM | Ours | 93.5 | 15.7 |
跨相机泛化 (CMU0, 仅3相机):
| 方法 | AP25↑ | mAP↑ |
|---|---|---|
| MvP | 12.3 | 57.1 |
| MVGFormer | 44.6 | 83.4 |
| MV-SSM | 55.4 | 90.3 |
跨场景泛化 (Campus, 无微调):
| 方法 | A1 PCP | A2 PCP | A3 PCP | Average |
|---|---|---|---|---|
| MvP | 0.0 | 0.0 | 0.0 | 0.0 |
| MVGFormer | 40.2 | 61.0 | 73.1 | 58.1 |
| MV-SSM | 55.5 | 65.5 | 79.9 | 67.3 |
消融实验¶
| 配置 | AP25↑ | MPJPE↓ | 说明 |
|---|---|---|---|
| w Mean (替换PSS) | 36.2 | 71.8 | 平均操作丢失信息严重 |
| w Cross-attention | 90.4 | 16.8 | 纯注意力不够 |
| w/o Mamba (SS2D+LN+FFN) | 92.3 | 16.0 | 退化为纯投影注意力 |
| w/o GTBS + Mamba | 87.7 | 18.6 | 两者都是必要的 |
| Full MV-SSM | 93.5 | 15.7 | 完整模型 |
关键发现¶
- MV-SSM 在最具挑战性的 3 相机设置中比 MVGFormer 提升 +10.8 AP25 (+24%),是泛化能力最突出的表现
- 在跨相机配置(CMU1-4 变化相机 ID 和数量)中,平均 AP25 提升 +3.9
- MvP 几乎完全不能泛化到新相机配置(AP25=0),说明纯注意力机制严重过拟合训练相机
- 消融证明 Mamba 块和 GTBS 都是必不可少的,单独去掉 Mamba 掉 1.2 AP25,同时去掉掉 5.8 AP25
亮点与洞察¶
- SSM 首次用于多视图几何建模:Mamba 之前主要用于图像分类和视频理解中的时序建模,本文独创性地用于建模多视图静态帧中的关节空间序列,思路新颖
- 泛化能力显著优于 Transformer:SSM 的序列建模能力使其对相机配置变化更鲁棒。这个发现具有启发性——SSM 可能也适用于其他需要跨域泛化的多视图任务
- GTBS 的"只扫描有用 token"策略:通过投影采样后仅在少量关键 token 上扫描,既降低计算量又避免背景噪声,可迁移到任何需要对稀疏关键点做序列建模的任务
局限性¶
- 仍依赖已知的相机内外参进行投影和三角化
- 未在更大规模数据集(如 Human3.6M)上训练/评估
- 在 Shelf 数据集上改进有限(PCP 已接近饱和:88.0 vs 87.9)
- GTBS 的扫描顺序可能不是最优的——人体关节更像树结构而非线性序列
- 计算效率分析缺失(未报告参数量和推理速度对比)
相关工作与启发¶
- vs MVGFormer: MVGFormer 用分层查询+注意力融合,在 in-domain 精度相近(92.3 vs 93.5),但跨域泛化差很多。本文的 SSM 建模提供了更好的泛化归纳偏置
- vs MvP: MvP 也用投影注意力但严重过拟合相机配置,跨域 AP25 直接归零。本文在 MvP 的投影注意力基础上增加 SSM 解决了这个问题
- vs VMamba/Vim: 这些工作将 Mamba 适配到 2D 图像分类,扫描图像 patch。本文适配到 3D 多视图几何,扫描关节 token,是完全不同的应用方向
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将 SSM 引入多视图 3D 人体姿态估计,方向新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 涵盖 in-domain、跨相机、跨配置、跨场景四种泛化测试,消融细致
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图示直观
- 价值: ⭐⭐⭐⭐ 泛化能力是实际部署的关键,提供了有价值的新范式