EMBridge: Enhancing Gesture Generalization from EMG Signals Through Cross-modal Representation Learning¶
会议: ICLR 2026
代码: 无
领域: 人体理解 / 手势识别 / 可穿戴设备
关键词: 表面肌电信号、跨模态表示学习、手势识别、零样本泛化、Q-Former
一句话总结¶
EMBridge 提出以手部姿态作为高质量锚点,通过 Q-Former + 掩码姿态重建损失 + 社区感知软对比学习三重机制,将噪声 sEMG 信号的表示空间向语义结构化的姿态空间对齐,首次在可穿戴设备上实现 EMG 零样本手势分类。
研究背景与动机¶
领域现状:手势识别在康复、人机交互和假肢控制等场景有广泛需求。基于视觉(视频/图像/骨架)的方案已相当成熟,但摄像头功耗高、存在隐私风险且遮挡时不稳定。表面肌电信号(sEMG)功耗低、可持续采集、适合集成在腕带式可穿戴设备中,是颇具潜力的替代方案。
现有痛点:sEMG 信号本身噪声大、个体差异显著,且公开配对数据集规模有限。仅用 EMG 做自监督预训练(如 MAE)得到的表示空间语义结构混乱,类间区分度差——作者用可视化直接展示了 MAE 预训练后 EMG 嵌入的"散点云"状态,与同样训练的姿态嵌入的"清晰簇"形成鲜明对比。
核心矛盾:单纯从 EMG 信号中学习判别性特征极为困难,而高质量的手部姿态数据(运动捕捉)恰好可以提供丰富的语义监督——但推理时只有 EMG 信号,没有姿态数据,如何在训练期利用姿态却在推理期仅用 EMG?
本文目标:在预训练阶段用姿态作为"教师"指导 EMG 表示学习,最终使 EMG 编码器在测试时仅凭信号本身就能识别未见过的手势(零样本泛化)。
切入角度:跨模态表示对齐——冻结高质量的姿态编码器作为固定锚点,只优化 EMG 编码器(非对称设计),避免将结构化的姿态空间"拉低"到 EMG 的噪声水平。
核心 idea:用冻结的姿态编码器作为锚点,通过 Q-Former + 掩码重建 + 社区感知软对比三重目标驱动 EMG 表示向姿态语义空间对齐,实现 EMG 零样本手势识别。
方法详解¶
整体框架¶
EMBridge 采用两阶段设计。第一阶段分别用 MAE 对 EMG 编码器 \(E_x\) 和姿态编码器 \(E_p\) 做单模态预训练,获得质量较好的初始表示。第二阶段冻结 \(E_p^*\) 作为固定锚点,在其上接入 Q-Former,通过三个联合优化目标将 EMG 表示拉向姿态语义空间。推理时只需 \(E_x\),无需任何姿态数据。
flowchart TD
A[sEMG 序列 x] --> B[EMG Encoder E_x\n可学习,MAE预训练]
B --> C[Q-Former F_ϕ\n4×self-attn + 2×cross-attn\n初始化自Pose-MAE]
C --> D[查询嵌入 Q' ∈ R^{M×d}]
E[手部姿态序列 p] --> F[Pose Encoder E_p*\n冻结,MAE预训练]
F --> G[姿态嵌入 v ∈ R^d]
D -- InfoNCE --> H[实例级对齐]
D & G -- CASCLe --> I[社区级软对比对齐]
D & E -- MPRL --> J[掩码姿态重建]
H & I & J --> K[总损失 L]
关键设计¶
1. Q-Former 非对称对齐:以姿态为锚提取 EMG 姿态相关特征
标准 CLIP/BLIP 对两个编码器对称更新,会把高质量模态的表示空间"污染"。EMBridge 选择冻结姿态编码器 \(E_p^*\),只优化 EMG 侧的 Q-Former \(F_\phi\) 和 \(E_x\)。Q-Former 维护 \(M\) 个可学习查询 \(Q^{(0)} \in \mathbb{R}^{M \times d}\),通过 4 层 self-attention 块(每隔一层插入一层 cross-attention)从 EMG 编码器的输出中抽取与姿态相关的信息,输出更新后的查询 \(Q' \in \mathbb{R}^{M \times d}\)。其中 self-attention 层由预训练 Pose-MAE 初始化,让查询天然具备理解姿态语义的能力;cross-attention 层随机初始化以学习如何从 EMG 特征中"查问"姿态信息。InfoNCE 目标驱动每个样本 \(i\) 的最优查询 \(u_i\)(与对应姿态嵌入 \(v_i\) 余弦相似度最高的那个)靠近 \(v_i\) 并远离其他批内样本:
由于只有 EMG 侧有梯度,姿态表示空间始终保持其良好的语义结构,EMG 编码器被单向"提升"。
2. 掩码姿态重建损失(MPRL):迫使查询携带结构化姿态语义
只靠对比损失,查询可能只对齐整体语义而忽略细粒度的姿态结构。MPRL 要求查询在没有直接访问 EMG 特征的情况下重建被遮蔽的姿态 token。具体地,先在第一次前向传播中获得 \(Q'\),然后在第二次前向传播中将掩码后的姿态 token \(\tilde{P}\) 与 \(Q'\) 拼接送入 Q-Former 的 self-attention 层(注意力掩码确保姿态 token 不能通过 cross-attention 访问 EMG 特征,只能从 \(Q'\) 中获取信息)。重建损失为:
这一"强迫依赖"机制使查询必须主动将 EMG 输出中隐含的姿态信息提取并编码进自身表示,从而让 EMG 嵌入具备更丰富的姿态语义,有助于对未见姿态的泛化。
3. 社区感知软对比学习(CASCLe):对齐潜在空间的相对几何结构
标准 InfoNCE 把批内所有非匹配样本视为等价的"负例",但姿态空间是连续的——两个不同手势的姿态在空间中可能非常接近,将其强制推开会产生有害梯度并混淆模型。CASCLe 用社区级软目标替代硬 one-hot 目标。离线对 Pose-MAE 嵌入做 \(k\)-means,得到 \(N_c\) 个质心 \(C\);对批内每个姿态嵌入计算与质心的亲和度向量 \(S_{p,c} = PC^\top\),并稀疏化保留 top-\(k_c\) 个最近质心(过滤掉不相关的社区)。随后通过外积得到社区感知的姿态-姿态相似度矩阵 \(S_{p,p} = S_{p,c} S_{p,c}^\top\),去掉对角线后经 softmax 归一化得到软目标 \(\tilde{y}_{ij}\),表示"姿态 \(v_j\) 在固定姿态关系图中是 \(v_i\) 的语义邻居的概率"。CASCLe 最小化 EMG-姿态相似度分布与软目标之间的交叉熵:
与 SoftCLIP(基于实例级相似度)和标签平滑相比,CASCLe 利用了更稳定的聚类结构信息,在零样本场景下表现更优——消融实验证实,将 InfoNCE 替换为 CASCLe 在 ZS unseen 上从 0.511 提升至 0.528。
实验关键数据¶
主实验(emg2pose 数据集,平衡准确率)¶
| 方法 | LP 已知手势 | ZS 已知手势 | LP 未见手势 | ZS 未见手势 |
|---|---|---|---|---|
| EMG-MAE(单模态基线) | 0.347 | — | 0.334 | — |
| emg2pose(监督基线) | 0.734 | — | 0.405 | — |
| CPEP(对称对比) | 0.782 | 0.757 | 0.536 | 0.481 |
| Q-Former(无 MPRL/CASCLe) | 0.782 | 0.763 | 0.493 | 0.498 |
| EMBridge | 0.785 | 0.777 | 0.505 | 0.528 |
| 上界(姿态编码器 LP) | 0.851 | — | 0.649 | — |
NinaPro 上 EMBridge ZS 已知/未见手势分别为 0.692 / 0.447,相比 CPEP(0.604 / 0.413)提升显著。
消融实验(emg2pose ZS 未见手势)¶
| 配置 | LP 已知 | ZS 已知 | LP 未见 | ZS 未见 |
|---|---|---|---|---|
| EMBridge w/o Q-Former | 0.793 | 0.763 | 0.538 | 0.494 |
| EMBridge w/o MPRL | 0.783 | 0.764 | 0.494 | 0.516 |
| EMBridge w/o CASCLe | 0.784 | 0.764 | 0.485 | 0.509 |
| 标签平滑替代 CASCLe | 0.777 | 0.759 | 0.489 | 0.511 |
| SoftCLIP 替代 CASCLe | 0.788 | 0.760 | 0.490 | 0.510 |
| EMBridge(完整) | 0.785 | 0.777 | 0.505 | 0.528 |
关键发现¶
- EMBridge 的 ZS 已知手势性能(0.777)超越了所有单模态基线的 LP 性能(最高 0.734),说明跨模态对齐确实提升了 EMG 表示的判别力。
- 即使只使用 40% 的配对预训练数据,EMBridge 零样本性能仍超越在全量数据上训练的单模态基线,数据效率突出。
- 在未见用户的每人 ZS 性能上,EMBridge 相比 CPEP 平均提升 16.0%(F1),体现出对个体差异的鲁棒性。
亮点与洞察¶
- 非对称设计的必要性:冻结高质量模态编码器作为固定锚点是关键设计选择——若对称训练,噪声 EMG 的梯度会破坏姿态空间的语义结构;同时,固定姿态编码器使其可独立用大量无配对姿态数据预训练,未来可显著提升监督质量而无需更多配对数据。
- 社区感知软目标的实际效果:手势姿态空间的连续性使得硬负例惩罚有害,CASCLe 通过聚类找到自然的语义邻域,比实例级相似度(SoftCLIP)更稳定,在零样本泛化上一致优于其他软目标方案。
- Q-Former 权衡:Q-Former 在零样本上最大化了泛化能力(因查询机制更灵活),但线性探测性能略逊于 CPEP(直接用 CLS token),这是"表示灵活性 vs 特征确定性"的常见权衡。
局限与展望¶
- 框架依赖配对 EMG-姿态数据做预训练,高质量配对数据集稀缺是实际瓶颈;未来可探索大规模无配对姿态数据预训练姿态编码器,再用少量配对数据做 EMBridge 对齐。
- 目前只探索了 EMG-姿态模态组合;扩展到 RGB-EMG 或 Video-EMG 对齐(利用预训练视觉编码器)是自然延伸,可进一步提升监督信号质量。
- 姿态社区建模使用硬性 \(k\)-means;未来可用高斯混合模型引入软概率社区归属,使结构相似度计算更连续平滑。
相关工作与启发¶
- vs CLIP/BLIP-2:CLIP 对称对齐两个大规模编码器,需要海量配对数据;EMBridge 采用非对称 Q-Former 设计,以高质量单模态预训练 + 少量配对数据实现跨模态对齐,更适合生物信号的小数据场景。
- vs CPEP(前作):CPEP 用投影层 + InfoNCE 做简单对齐,无法利用 EMG 内部的多尺度时序结构;EMBridge 的 Q-Former 可通过多头交叉注意力从 EMG 中选择性提取与姿态最相关的特征,泛化能力更强。
- vs SoftCLIP / 标签平滑:SoftCLIP 用实例级相似度作为软目标,CASCLe 用聚类社区结构,后者利用了更全局稳定的语义拓扑,对噪声更鲁棒。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将 Q-Former + 掩码重建 + 社区级软对比联合应用于 EMG 跨模态对齐,非对称架构设计有明确动机
- 实验充分度: ⭐⭐⭐⭐ 覆盖两个数据集、多个评估协议(ZS/LP)、详细消融和超参敏感性分析,数据效率实验增添实用说服力
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法动机推导完整,图表与正文对应良好
- 价值: ⭐⭐⭐⭐ 零样本 EMG 手势识别有明确的 VR/AR、假肢控制等落地场景,方法框架对其他生物信号跨模态研究有参考价值