跳转至

EMBridge: Enhancing Gesture Generalization from EMG Signals Through Cross-modal Representation Learning

会议: ICLR 2026
代码: 无
领域: 人体理解 / 手势识别 / 可穿戴设备
关键词: 表面肌电信号、跨模态表示学习、手势识别、零样本泛化、Q-Former

一句话总结

EMBridge 提出以手部姿态作为高质量锚点,通过 Q-Former + 掩码姿态重建损失 + 社区感知软对比学习三重机制,将噪声 sEMG 信号的表示空间向语义结构化的姿态空间对齐,首次在可穿戴设备上实现 EMG 零样本手势分类。

研究背景与动机

领域现状:手势识别在康复、人机交互和假肢控制等场景有广泛需求。基于视觉(视频/图像/骨架)的方案已相当成熟,但摄像头功耗高、存在隐私风险且遮挡时不稳定。表面肌电信号(sEMG)功耗低、可持续采集、适合集成在腕带式可穿戴设备中,是颇具潜力的替代方案。

现有痛点:sEMG 信号本身噪声大、个体差异显著,且公开配对数据集规模有限。仅用 EMG 做自监督预训练(如 MAE)得到的表示空间语义结构混乱,类间区分度差——作者用可视化直接展示了 MAE 预训练后 EMG 嵌入的"散点云"状态,与同样训练的姿态嵌入的"清晰簇"形成鲜明对比。

核心矛盾:单纯从 EMG 信号中学习判别性特征极为困难,而高质量的手部姿态数据(运动捕捉)恰好可以提供丰富的语义监督——但推理时只有 EMG 信号,没有姿态数据,如何在训练期利用姿态却在推理期仅用 EMG?

本文目标:在预训练阶段用姿态作为"教师"指导 EMG 表示学习,最终使 EMG 编码器在测试时仅凭信号本身就能识别未见过的手势(零样本泛化)。

切入角度:跨模态表示对齐——冻结高质量的姿态编码器作为固定锚点,只优化 EMG 编码器(非对称设计),避免将结构化的姿态空间"拉低"到 EMG 的噪声水平。

核心 idea:用冻结的姿态编码器作为锚点,通过 Q-Former + 掩码重建 + 社区感知软对比三重目标驱动 EMG 表示向姿态语义空间对齐,实现 EMG 零样本手势识别。

方法详解

整体框架

EMBridge 采用两阶段设计。第一阶段分别用 MAE 对 EMG 编码器 \(E_x\) 和姿态编码器 \(E_p\) 做单模态预训练,获得质量较好的初始表示。第二阶段冻结 \(E_p^*\) 作为固定锚点,在其上接入 Q-Former,通过三个联合优化目标将 EMG 表示拉向姿态语义空间。推理时只需 \(E_x\),无需任何姿态数据。

flowchart TD
    A[sEMG 序列 x] --> B[EMG Encoder E_x\n可学习,MAE预训练]
    B --> C[Q-Former F_ϕ\n4×self-attn + 2×cross-attn\n初始化自Pose-MAE]
    C --> D[查询嵌入 Q' ∈ R^{M×d}]

    E[手部姿态序列 p] --> F[Pose Encoder E_p*\n冻结,MAE预训练]
    F --> G[姿态嵌入 v ∈ R^d]

    D -- InfoNCE --> H[实例级对齐]
    D & G -- CASCLe --> I[社区级软对比对齐]
    D & E -- MPRL --> J[掩码姿态重建]

    H & I & J --> K[总损失 L]

关键设计

1. Q-Former 非对称对齐:以姿态为锚提取 EMG 姿态相关特征

标准 CLIP/BLIP 对两个编码器对称更新,会把高质量模态的表示空间"污染"。EMBridge 选择冻结姿态编码器 \(E_p^*\),只优化 EMG 侧的 Q-Former \(F_\phi\)\(E_x\)。Q-Former 维护 \(M\) 个可学习查询 \(Q^{(0)} \in \mathbb{R}^{M \times d}\),通过 4 层 self-attention 块(每隔一层插入一层 cross-attention)从 EMG 编码器的输出中抽取与姿态相关的信息,输出更新后的查询 \(Q' \in \mathbb{R}^{M \times d}\)。其中 self-attention 层由预训练 Pose-MAE 初始化,让查询天然具备理解姿态语义的能力;cross-attention 层随机初始化以学习如何从 EMG 特征中"查问"姿态信息。InfoNCE 目标驱动每个样本 \(i\) 的最优查询 \(u_i\)(与对应姿态嵌入 \(v_i\) 余弦相似度最高的那个)靠近 \(v_i\) 并远离其他批内样本:

\[L_{\text{InfoNCE}} = -\frac{1}{B}\sum_{i=1}^{B}\sum_{j=1}^{B} I_{ij} \log \frac{\exp(u_i^\top v_j / \tau)}{\sum_{k=1}^{B} \exp(u_i^\top v_k / \tau)}\]

由于只有 EMG 侧有梯度,姿态表示空间始终保持其良好的语义结构,EMG 编码器被单向"提升"。

2. 掩码姿态重建损失(MPRL):迫使查询携带结构化姿态语义

只靠对比损失,查询可能只对齐整体语义而忽略细粒度的姿态结构。MPRL 要求查询在没有直接访问 EMG 特征的情况下重建被遮蔽的姿态 token。具体地,先在第一次前向传播中获得 \(Q'\),然后在第二次前向传播中将掩码后的姿态 token \(\tilde{P}\)\(Q'\) 拼接送入 Q-Former 的 self-attention 层(注意力掩码确保姿态 token 不能通过 cross-attention 访问 EMG 特征,只能从 \(Q'\) 中获取信息)。重建损失为:

\[L_{\text{MPRL}} = \frac{1}{|\mathcal{M}|}\sum_{m \in \mathcal{M}} \left\| g\left(H_P[m]\right) - P[m] \right\|_2^2\]

这一"强迫依赖"机制使查询必须主动将 EMG 输出中隐含的姿态信息提取并编码进自身表示,从而让 EMG 嵌入具备更丰富的姿态语义,有助于对未见姿态的泛化。

3. 社区感知软对比学习(CASCLe):对齐潜在空间的相对几何结构

标准 InfoNCE 把批内所有非匹配样本视为等价的"负例",但姿态空间是连续的——两个不同手势的姿态在空间中可能非常接近,将其强制推开会产生有害梯度并混淆模型。CASCLe 用社区级软目标替代硬 one-hot 目标。离线对 Pose-MAE 嵌入做 \(k\)-means,得到 \(N_c\) 个质心 \(C\);对批内每个姿态嵌入计算与质心的亲和度向量 \(S_{p,c} = PC^\top\),并稀疏化保留 top-\(k_c\) 个最近质心(过滤掉不相关的社区)。随后通过外积得到社区感知的姿态-姿态相似度矩阵 \(S_{p,p} = S_{p,c} S_{p,c}^\top\),去掉对角线后经 softmax 归一化得到软目标 \(\tilde{y}_{ij}\),表示"姿态 \(v_j\) 在固定姿态关系图中是 \(v_i\) 的语义邻居的概率"。CASCLe 最小化 EMG-姿态相似度分布与软目标之间的交叉熵:

\[L_{\text{CASCLe}} = -\frac{1}{B}\sum_{i=1}^{B}\sum_{j \neq i}^{B} \tilde{y}_{ij} \log q_{ij}\]

与 SoftCLIP(基于实例级相似度)和标签平滑相比,CASCLe 利用了更稳定的聚类结构信息,在零样本场景下表现更优——消融实验证实,将 InfoNCE 替换为 CASCLe 在 ZS unseen 上从 0.511 提升至 0.528。

实验关键数据

主实验(emg2pose 数据集,平衡准确率)

方法 LP 已知手势 ZS 已知手势 LP 未见手势 ZS 未见手势
EMG-MAE(单模态基线) 0.347 0.334
emg2pose(监督基线) 0.734 0.405
CPEP(对称对比) 0.782 0.757 0.536 0.481
Q-Former(无 MPRL/CASCLe) 0.782 0.763 0.493 0.498
EMBridge 0.785 0.777 0.505 0.528
上界(姿态编码器 LP) 0.851 0.649

NinaPro 上 EMBridge ZS 已知/未见手势分别为 0.692 / 0.447,相比 CPEP(0.604 / 0.413)提升显著。

消融实验(emg2pose ZS 未见手势)

配置 LP 已知 ZS 已知 LP 未见 ZS 未见
EMBridge w/o Q-Former 0.793 0.763 0.538 0.494
EMBridge w/o MPRL 0.783 0.764 0.494 0.516
EMBridge w/o CASCLe 0.784 0.764 0.485 0.509
标签平滑替代 CASCLe 0.777 0.759 0.489 0.511
SoftCLIP 替代 CASCLe 0.788 0.760 0.490 0.510
EMBridge(完整) 0.785 0.777 0.505 0.528

关键发现

  • EMBridge 的 ZS 已知手势性能(0.777)超越了所有单模态基线的 LP 性能(最高 0.734),说明跨模态对齐确实提升了 EMG 表示的判别力。
  • 即使只使用 40% 的配对预训练数据,EMBridge 零样本性能仍超越在全量数据上训练的单模态基线,数据效率突出。
  • 在未见用户的每人 ZS 性能上,EMBridge 相比 CPEP 平均提升 16.0%(F1),体现出对个体差异的鲁棒性。

亮点与洞察

  • 非对称设计的必要性:冻结高质量模态编码器作为固定锚点是关键设计选择——若对称训练,噪声 EMG 的梯度会破坏姿态空间的语义结构;同时,固定姿态编码器使其可独立用大量无配对姿态数据预训练,未来可显著提升监督质量而无需更多配对数据。
  • 社区感知软目标的实际效果:手势姿态空间的连续性使得硬负例惩罚有害,CASCLe 通过聚类找到自然的语义邻域,比实例级相似度(SoftCLIP)更稳定,在零样本泛化上一致优于其他软目标方案。
  • Q-Former 权衡:Q-Former 在零样本上最大化了泛化能力(因查询机制更灵活),但线性探测性能略逊于 CPEP(直接用 CLS token),这是"表示灵活性 vs 特征确定性"的常见权衡。

局限与展望

  • 框架依赖配对 EMG-姿态数据做预训练,高质量配对数据集稀缺是实际瓶颈;未来可探索大规模无配对姿态数据预训练姿态编码器,再用少量配对数据做 EMBridge 对齐。
  • 目前只探索了 EMG-姿态模态组合;扩展到 RGB-EMG 或 Video-EMG 对齐(利用预训练视觉编码器)是自然延伸,可进一步提升监督信号质量。
  • 姿态社区建模使用硬性 \(k\)-means;未来可用高斯混合模型引入软概率社区归属,使结构相似度计算更连续平滑。

相关工作与启发

  • vs CLIP/BLIP-2:CLIP 对称对齐两个大规模编码器,需要海量配对数据;EMBridge 采用非对称 Q-Former 设计,以高质量单模态预训练 + 少量配对数据实现跨模态对齐,更适合生物信号的小数据场景。
  • vs CPEP(前作):CPEP 用投影层 + InfoNCE 做简单对齐,无法利用 EMG 内部的多尺度时序结构;EMBridge 的 Q-Former 可通过多头交叉注意力从 EMG 中选择性提取与姿态最相关的特征,泛化能力更强。
  • vs SoftCLIP / 标签平滑:SoftCLIP 用实例级相似度作为软目标,CASCLe 用聚类社区结构,后者利用了更全局稳定的语义拓扑,对噪声更鲁棒。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将 Q-Former + 掩码重建 + 社区级软对比联合应用于 EMG 跨模态对齐,非对称架构设计有明确动机
  • 实验充分度: ⭐⭐⭐⭐ 覆盖两个数据集、多个评估协议(ZS/LP)、详细消融和超参敏感性分析,数据效率实验增添实用说服力
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法动机推导完整,图表与正文对应良好
  • 价值: ⭐⭐⭐⭐ 零样本 EMG 手势识别有明确的 VR/AR、假肢控制等落地场景,方法框架对其他生物信号跨模态研究有参考价值