BriMA: Bridged Modality Adaptation for Multi-Modal Continual Action Quality Assessment¶
会议: CVPR2026
arXiv: 2602.19170
代码: github.com/ZhouKanglei/BriMA
领域: 多模态VLM
关键词: 动作质量评估, 持续学习, 模态缺失, 多模态融合, 记忆回放
一句话总结¶
提出 BriMA,通过记忆引导的桥接补全和模态感知回放机制,解决多模态持续动作质量评估中非平稳模态不平衡问题,在三个基准上平均提升 6-8% 相关系数、降低 12-15% 误差。
研究背景与动机¶
- 动作质量评估(AQA)广泛应用于体育分析、康复评估、技能评价,多模态方法(视觉+运动学线索)已取得显著进展
- 现实部署中,传感器故障、标注缺失导致非平稳模态不平衡——模态可用性随时间变化
- 现有多模态 AQA 方法假设输入模态完整稳定,一旦模态缺失即出现显著性能下降
- 现有持续 AQA 方法仅关注任务级遗忘,不处理模态层面的动态变化
- 简单插补、基于检索的补全、生成式合成均无法保持 AQA 评分关键的几何结构,导致排序一致性被破坏
- AQA 的细粒度评分敏感性使其本质上不同于普通的缺失模态重建问题
方法详解¶
整体框架¶
BriMA 在每个训练 session 中:(1) 用 MBI 模块补全缺失模态特征;(2) 融合所有模态特征进行评分预测;(3) 用 MRO 模块选择信息量大的样本进行回放,对抗分布漂移。
关键设计¶
MBI(Memory-Guided Bridging Imputation): 1. 候选检索:对缺失模态 \(m\),用余弦相似度从记忆缓冲区 \(\mathcal{B}_{t-1}\) 检索 \(K\) 个结构对齐的范例特征: \(s_{j,t'} = \frac{\langle \mathbf{z}_{i,t}^{\mathcal{O}}, \mathbf{z}_{j,t'}^{\mathcal{O}} \rangle}{\|\mathbf{z}_{i,t}^{\mathcal{O}}\| \|\mathbf{z}_{j,t'}^{\mathcal{O}}\|}\) 2. 任务指示器:二值掩码 \(\mathbf{r}_{i,t}\) 标识缺失模态,配合可学习任务嵌入 \(\mathbf{p}_t^m\) 提供任务特定条件 3. 桥接残差:学习残差修正而非完整特征合成: \(\tilde{\mathbf{z}}_{i,t}^m = \bar{\mathbf{z}}_{i,t}^m + \Delta\mathbf{z}_{i,t}^m = \bar{\mathbf{z}}_{i,t}^m + B_\Theta(\mathbf{z}_{i,t}^{\mathcal{O}}, \bar{\mathbf{z}}_{i,t}^m, \mathbf{c}_t^m)\)
MRO(Modality-Aware Replay Optimization): - 基于模态失真度和分数漂移动态优先选择回放样本 - 维护具有可靠模态和平衡分数覆盖的代表性样本缓冲区 - 通过回放对抗跨任务分布漂移
损失函数¶
$\(\min_{\theta_f, \theta_g} \mathcal{L}_{score} + \lambda_{mem}\mathcal{L}_{mem} + \lambda_{rec}\mathcal{L}_{rec}\)$ 其中 \(\mathcal{L}_{score}\) 为 MSE 评分损失,\(\mathcal{L}_{mem}\) 为记忆回放正则损失,\(\mathcal{L}_{rec} = \|\tilde{\mathbf{z}} - \mathbf{z}\|_2^2\) 为特征重建损失。
实验关键数据¶
主实验:RG 数据集对比(\(\beta=10\%\) 模态缺失率)¶
| 方法 | 发表 | SRCC↑ Avg | MSE↓ Avg | RL2↓ Avg |
|---|---|---|---|---|
| ST-MLAVL | CVPR'25 | 0.599 | 9.94 | 3.558 |
| EWC | PNAS'17 | 0.605 | 10.26 | 3.709 |
| MER | ICLR'19 | 0.722 | 6.77 | — |
| BriMA | 本文 | 最优 (~0.76+) | 最低 | 最低 |
消融实验¶
| 组件 | SRCC 变化 | MSE 变化 |
|---|---|---|
| 无 MBI(零填充) | 显著下降 | 显著上升 |
| 无 MRO(随机回放) | 下降 | 上升 |
| 无残差机制(直接生成) | 下降 | 上升 |
| 完整 BriMA | 最优 | 最优 |
跨数据集表现¶
在 RG、Fis-V、FS1000 三个数据集上,BriMA 平均提升: - 秩相关系数:+6.1%, +8.3%, +1.4% - 误差降低:-12.7%, -15.3%, -6.4% - 相对误差降低:-13.9%, -14.1%, -5.2%
关键发现¶
- 残差学习策略比直接特征生成更稳定,尤其在监督信号有限时
- 模态感知回放选择比随机回放有效得多
- MBI 和 MRO 两个组件都对整体性能提升有重要贡献
亮点与洞察¶
- 首次系统性定义和解决多模态持续 AQA 中的非平稳模态不平衡问题
- 残差桥接比完整重建更保守、更安全——在评分敏感任务中尤为重要
- 记忆引导的检索+残差修正机制在保持评分流形结构上表现出色
局限性¶
- 假设缺失模态模式已知(\(\mathcal{M}_{i,t}\) 在训练时可观测),未探索自动检测缺失模态
- 仅验证了两种模态的场景,三模态以上的扩展性待确认
- 记忆缓冲区大小对性能的影响未充分讨论
相关工作与启发¶
- 与通用缺失模态学习的区别:BriMA 专门针对 AQA 评分敏感性设计,避免了通用方法的评分流形破坏
- 与 Fs-Aug / MAGR 等持续 AQA 方法的区别:后者仅处理任务级非平稳,不解决模态层面问题
- 启发:残差桥接思想可迁移到其他需要模态补全但对输出精度敏感的任务
评分¶
- 新颖性: ⭐⭐⭐⭐ (问题定义新颖,MBI 设计合理)
- 实验充分度: ⭐⭐⭐⭐ (3 个数据集,多种缺失率,全面消融)
- 写作质量: ⭐⭐⭐⭐ (问题形式化清晰,符号统一)
- 价值: ⭐⭐⭐ (应用场景相对垂直,但方法思路有普适性)