Towards Balanced Multi-Modal Learning in 3D Human Pose Estimation¶

会议: CVPR 2026
arXiv: 2501.05264
代码: GitHub
领域: 自动驾驶
关键词: 3D pose estimation, modality imbalance, Shapley value, Fisher Information Matrix, multi-modal fusion

一句话总结¶

提出基于 Shapley 值+Pearson 相关系数的模态贡献评估算法和 Fisher 信息矩阵引导的自适应权重约束（AWC）正则化方法，解决 RGB/LiDAR/mmWave/WiFi 四模态端到端融合中的模态不平衡问题，在 MM-Fi 数据集上 MPJPE 降低 2.71mm 且不引入额外可学参数。

研究背景与动机¶

领域现状：3D 人体位姿估计（3D HPE）以 RGB 为主，但 RGB 受遮挡和隐私限制。非侵入式传感器（LiDAR/mmWave/WiFi）可提供补充信息，但多模态端到端训练面临模态不平衡问题。

现有痛点：强模态（RGB/LiDAR）在训练早期主导梯度更新，抑制弱模态（mmWave/WiFi）的优化，导致弱模态预测退化为近常值输出（标准差趋近于零）。更糟糕的是，简单增加模态反而可能降低性能——四模态融合（53.87mm MPJPE）比 RGB+LiDAR（52.93mm）还差，直接证实了模态竞争的存在。现有平衡方法（G-Blending/OGM-GE/AGM）有两大局限：(1) 专为分类设计，依赖 cross-entropy，不适用于回归任务；(2) 常引入辅助单模态头增加模型复杂度。

核心矛盾：如何在不引入额外参数的前提下，实现多模态回归任务中的均衡优化？需要解决两个子问题：在回归任务中准确评估各模态贡献（分类的 cross-entropy 方案不适用），以及自适应地调节各模态学习速率以实现平衡。

切入角度：弱模态在回归任务中的特殊表现——预测近乎常值（标准差极低），用 MSE/MAE 评估会错误地认为其"可靠"。Pearson 相关系数衡量预测与 GT 的线性相关性而非距离，不受预测幅度影响，是更合适的贡献度指标。

核心 idea：用 Pearson 相关系数替代 MSE 作为回归任务的 Shapley 利润函数来检测模态不平衡，再用 FIM 加权的参数偏移正则化来差异化约束各模态的学习速率。

方法详解¶

整体框架¶

4 个模态（RGB/LiDAR/mmWave/WiFi）分别通过专用编码器（VideoPose3D / Point Transformer / MetaFi++）提取特征，融合模块（concatenation/MLP/attention）合并后送入位姿回归头输出 3D 关节坐标。两个核心组件：Shapley 模块评估模态贡献 → AWC 正则化在 learning window 内约束参数更新。

关键设计¶

Shapley 值 + Pearson 相关的模态贡献评估:
- 功能：在回归任务中准确量化每个模态对融合模型的贡献度
- 核心思路：Shapley 值通过枚举所有模态子集组合计算各模态的边际贡献 \(\phi^m(\mathcal{M}) = \sum_{S \subseteq \mathcal{M} \setminus \{m\}} \frac{|S|!(|\mathcal{M}|-|S|-1)!}{|\mathcal{M}|!} V(S,m)\)。关键创新在于利润函数 \(s(\cdot,\cdot)\)——传统方法用 cross-entropy（分类），本文用 Pearson 相关系数 \(s(y, \hat{y}) = \sum_{i=1}^{j \times 3} \rho(y_i, \hat{y}_i)\)，沿 batch 维度计算每个关节坐标值的线性相关性
- 设计动机：弱模态（mmWave/WiFi）在回归中产生近常值预测（标准差趋近于零），如果用 MSE 评估，距离小反而被误判为"可靠"。Pearson 相关不受预测幅度影响，能准确识别出无信息量的常值预测。实验证实 RGB 和 LiDAR 一致获得高贡献分，mmWave/WiFi 分数低且随训练下降
AWC（自适应权重约束）正则化:
- 功能：根据模态贡献差异化地约束各模态编码器的参数更新速率
- 核心思路：先用 K-Means 将 4 个模态按 Shapley 分聚类为优势组 \(\mathcal{M}_\mathcal{S}\) 和劣势组 \(\mathcal{M}_\mathcal{I}\)。对每个模态编码器施加参数偏移正则：\(\mathcal{L}_{\text{AWC}} = \sum_m [\alpha_\mathcal{S} \cdot \mathbf{1}_{\{m \in \mathcal{M}_\mathcal{S}\}} + \alpha_\mathcal{I} \cdot \mathbf{1}_{\{m \in \mathcal{M}_\mathcal{I}\}}] \cdot \sum_i \frac{[\mathcal{I}_\mathcal{D}]_{ii} (\theta_{t,i}^m - \theta_{0,i}^{m,*})^2}{2}\)。FIM 对角近似 \([\mathcal{I}]_{ii}\) 衡量参数重要性——强模态早期梯度大→FIM 高→正则化更强（抑制过快学习）；弱模态 FIM 低→正则化弱（允许继续学）。\(\alpha_\mathcal{S} > \alpha_\mathcal{I}\) 确保对强模态约束更大
- 设计动机：既约束方向又约束幅度。FIM 提供了数据驱动的参数灵敏度估计，自然地将"重要参数"（对损失影响大的）与"不重要参数"区分开。无需额外可学参数
Learning Window 机制:
- 功能：AWC 仅在前 K 个 epoch 施加，之后关闭
- 核心思路：基于先验研究发现，与模态相关的关键信息在训练早期获取。实验验证 K=20 最优（总共 50 epochs），过短或过长都会降低性能
- 设计动机：后期正则化反而干扰收敛。前期约束给弱模态留出学习空间后，后期自由优化才能充分利用所有模态

损失函数 / 训练策略¶

\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{MPJPE}} + \mathcal{L}_{\text{AWC}}\)（前 K 个 epoch）/ \(\mathcal{L}_{\text{MPJPE}}\)（后续 epoch）。Adam 优化器，lr=1e-3，每 30 epoch×0.1，batch=192，共 50 epochs，2×RTX 3090。

实验关键数据¶

主实验¶

方法	Protocol 1 MPJPE↓	PA-MPJPE↓	Protocol 3 MPJPE↓	PA-MPJPE↓
Concatenation (baseline)	53.87	35.09	48.17	32.18
+ G-Blending	58.40	37.20	53.13	33.28
+ OGM-GE	55.51	35.92	51.68	32.84
+ AGM	55.80	38.10	53.88	36.30
+ Modality-level	53.24	34.81	53.98	31.85
+ Ours (AWC)	51.16	34.46	47.55	31.79

消融实验¶

α_S	α_I	MPJPE	PA-MPJPE	说明
0	0	53.87	35.09	无正则化（baseline）
0	10k	52.92	34.94	仅约束弱模态
10k	0	52.09	34.81	仅约束强模态
20k	10k	51.16	34.46	最优配置
20k	20k	51.69	34.84	等强度约束效果差

关键发现¶

仅约束强模态比仅约束弱模态更有效（52.09 vs 52.92），证实抑制强模态过快学习是平衡的主要机制
同时约束两组效果最好也必须差异化（α_S > α_I），等强度约束（20k/20k）不如差异化（20k/10k）
Learning window K=20 最优：太短（K=10）不足以建立平衡，太长（K=25）干扰收敛
模态竞争的直接证据：R+L+M+W（53.87mm）比 R+L（52.93mm）差，增加弱模态反而有害
计算开销极低：Shapley 计算在 Concat/MLP 融合下仅占训练时间的 0.41%~0.93%

亮点与洞察¶

Pearson 相关替代 MSE 作为回归任务的 Shapley 利润函数：这个观察非常精准——弱模态产生常值预测时 MSE 反而小，会被误判为有用。Pearson 相关完全免疫于这种陷阱，可直接迁移到任何多模态回归任务
FIM 自然实现差异化正则：不需要手动设计哪些参数该约束、哪些不该——FIM 值高的参数（强模态中被频繁更新的参数）正是最需要减速的，实现了自适应。这种思路可迁移到 continual learning 或 domain adaptation
Learning Window 概念：承认"平衡只在早期重要"——后期所有模态都应该自由优化。这个 insight 对其他平衡方法也有参考价值

局限与展望¶

仅在 MM-Fi 一个数据集上评估：4 模态 HPE 本身是个很 niche 的设置，泛化性存疑
Shapley 值计算复杂度指数增长：4 模态时只需 \(2^4=16\) 次前向，但模态数增加到 6+ 时变得不可行，需要采样近似
简单的 K-Means 二分法：将模态分为优势/劣势两组过于简化，模态数多时应考虑更精细的分组或连续权重
α_S 和 α_I 需手动调参：虽然方法本身是自适应的，但两个正则化系数仍需搜索

评分¶

新颖性: ⭐⭐⭐⭐ Pearson-Shapley + FIM-AWC 的组合在多模态回归任务中是首次
实验充分度: ⭐⭐⭐ 仅一个数据集，但消融和分析详尽
写作质量: ⭐⭐⭐⭐ 问题分析透彻，动机推导清晰
价值: ⭐⭐⭐⭐ 对多模态回归任务的平衡优化提供了通用框架