EMBridge: Enhancing Gesture Generalization from EMG Signals Through Cross-modal Representation Learning¶

会议: ICLR 2026
代码: 无
领域: 人体理解 / 手势识别 / 可穿戴设备
关键词: 表面肌电信号、跨模态表示学习、手势识别、零样本泛化、Q-Former

一句话总结¶

EMBridge 提出以手部姿态作为高质量锚点，通过 Q-Former + 掩码姿态重建损失 + 社区感知软对比学习三重机制，将噪声 sEMG 信号的表示空间向语义结构化的姿态空间对齐，首次在可穿戴设备上实现 EMG 零样本手势分类。

研究背景与动机¶

领域现状：手势识别在康复、人机交互和假肢控制等场景有广泛需求。基于视觉（视频/图像/骨架）的方案已相当成熟，但摄像头功耗高、存在隐私风险且遮挡时不稳定。表面肌电信号（sEMG）功耗低、可持续采集、适合集成在腕带式可穿戴设备中，是颇具潜力的替代方案。

现有痛点：sEMG 信号本身噪声大、个体差异显著，且公开配对数据集规模有限。仅用 EMG 做自监督预训练（如 MAE）得到的表示空间语义结构混乱，类间区分度差——作者用可视化直接展示了 MAE 预训练后 EMG 嵌入的"散点云"状态，与同样训练的姿态嵌入的"清晰簇"形成鲜明对比。

核心矛盾：单纯从 EMG 信号中学习判别性特征极为困难，而高质量的手部姿态数据（运动捕捉）恰好可以提供丰富的语义监督——但推理时只有 EMG 信号，没有姿态数据，如何在训练期利用姿态却在推理期仅用 EMG？

本文目标：在预训练阶段用姿态作为"教师"指导 EMG 表示学习，最终使 EMG 编码器在测试时仅凭信号本身就能识别未见过的手势（零样本泛化）。

切入角度：跨模态表示对齐——冻结高质量的姿态编码器作为固定锚点，只优化 EMG 编码器（非对称设计），避免将结构化的姿态空间"拉低"到 EMG 的噪声水平。

核心 idea：用冻结的姿态编码器作为锚点，通过 Q-Former + 掩码重建 + 社区感知软对比三重目标驱动 EMG 表示向姿态语义空间对齐，实现 EMG 零样本手势识别。

方法详解¶

整体框架¶

EMBridge 采用两阶段设计。第一阶段分别用 MAE 对 EMG 编码器 \(E_x\) 和姿态编码器 \(E_p\) 做单模态预训练，获得质量较好的初始表示。第二阶段冻结 \(E_p^*\) 作为固定锚点，在其上接入 Q-Former，通过三个联合优化目标将 EMG 表示拉向姿态语义空间。推理时只需 \(E_x\)，无需任何姿态数据。

flowchart TD
    A[sEMG 序列 x] --> B[EMG Encoder E_x\n可学习，MAE预训练]
    B --> C[Q-Former F_ϕ\n4×self-attn + 2×cross-attn\n初始化自Pose-MAE]
    C --> D[查询嵌入 Q' ∈ R^{M×d}]

    E[手部姿态序列 p] --> F[Pose Encoder E_p*\n冻结，MAE预训练]
    F --> G[姿态嵌入 v ∈ R^d]

    D -- InfoNCE --> H[实例级对齐]
    D & G -- CASCLe --> I[社区级软对比对齐]
    D & E -- MPRL --> J[掩码姿态重建]

    H & I & J --> K[总损失 L]

关键设计¶

1. Q-Former 非对称对齐：以姿态为锚提取 EMG 姿态相关特征

标准 CLIP/BLIP 对两个编码器对称更新，会把高质量模态的表示空间"污染"。EMBridge 选择冻结姿态编码器 \(E_p^*\)，只优化 EMG 侧的 Q-Former \(F_\phi\) 和 \(E_x\)。Q-Former 维护 \(M\) 个可学习查询 \(Q^{(0)} \in \mathbb{R}^{M \times d}\)，通过 4 层 self-attention 块（每隔一层插入一层 cross-attention）从 EMG 编码器的输出中抽取与姿态相关的信息，输出更新后的查询 \(Q' \in \mathbb{R}^{M \times d}\)。其中 self-attention 层由预训练 Pose-MAE 初始化，让查询天然具备理解姿态语义的能力；cross-attention 层随机初始化以学习如何从 EMG 特征中"查问"姿态信息。InfoNCE 目标驱动每个样本 \(i\) 的最优查询 \(u_i\)（与对应姿态嵌入 \(v_i\) 余弦相似度最高的那个）靠近 \(v_i\) 并远离其他批内样本：

\[L_{\text{InfoNCE}} = -\frac{1}{B}\sum_{i=1}^{B}\sum_{j=1}^{B} I_{ij} \log \frac{\exp(u_i^\top v_j / \tau)}{\sum_{k=1}^{B} \exp(u_i^\top v_k / \tau)}\]

由于只有 EMG 侧有梯度，姿态表示空间始终保持其良好的语义结构，EMG 编码器被单向"提升"。

2. 掩码姿态重建损失（MPRL）：迫使查询携带结构化姿态语义

只靠对比损失，查询可能只对齐整体语义而忽略细粒度的姿态结构。MPRL 要求查询在没有直接访问 EMG 特征的情况下重建被遮蔽的姿态 token。具体地，先在第一次前向传播中获得 \(Q'\)，然后在第二次前向传播中将掩码后的姿态 token \(\tilde{P}\) 与 \(Q'\) 拼接送入 Q-Former 的 self-attention 层（注意力掩码确保姿态 token 不能通过 cross-attention 访问 EMG 特征，只能从 \(Q'\) 中获取信息）。重建损失为：

\[L_{\text{MPRL}} = \frac{1}{|\mathcal{M}|}\sum_{m \in \mathcal{M}} \left\| g\left(H_P[m]\right) - P[m] \right\|_2^2\]

这一"强迫依赖"机制使查询必须主动将 EMG 输出中隐含的姿态信息提取并编码进自身表示，从而让 EMG 嵌入具备更丰富的姿态语义，有助于对未见姿态的泛化。

3. 社区感知软对比学习（CASCLe）：对齐潜在空间的相对几何结构

标准 InfoNCE 把批内所有非匹配样本视为等价的"负例"，但姿态空间是连续的——两个不同手势的姿态在空间中可能非常接近，将其强制推开会产生有害梯度并混淆模型。CASCLe 用社区级软目标替代硬 one-hot 目标。离线对 Pose-MAE 嵌入做 \(k\)-means，得到 \(N_c\) 个质心 \(C\)；对批内每个姿态嵌入计算与质心的亲和度向量 \(S_{p,c} = PC^\top\)，并稀疏化保留 top-\(k_c\) 个最近质心（过滤掉不相关的社区）。随后通过外积得到社区感知的姿态-姿态相似度矩阵 \(S_{p,p} = S_{p,c} S_{p,c}^\top\)，去掉对角线后经 softmax 归一化得到软目标 \(\tilde{y}_{ij}\)，表示"姿态 \(v_j\) 在固定姿态关系图中是 \(v_i\) 的语义邻居的概率"。CASCLe 最小化 EMG-姿态相似度分布与软目标之间的交叉熵：

\[L_{\text{CASCLe}} = -\frac{1}{B}\sum_{i=1}^{B}\sum_{j \neq i}^{B} \tilde{y}_{ij} \log q_{ij}\]

与 SoftCLIP（基于实例级相似度）和标签平滑相比，CASCLe 利用了更稳定的聚类结构信息，在零样本场景下表现更优——消融实验证实，将 InfoNCE 替换为 CASCLe 在 ZS unseen 上从 0.511 提升至 0.528。

实验关键数据¶

主实验（emg2pose 数据集，平衡准确率）¶

方法	LP 已知手势	ZS 已知手势	LP 未见手势	ZS 未见手势
EMG-MAE（单模态基线）	0.347	—	0.334	—
emg2pose（监督基线）	0.734	—	0.405	—
CPEP（对称对比）	0.782	0.757	0.536	0.481
Q-Former（无 MPRL/CASCLe）	0.782	0.763	0.493	0.498
EMBridge	0.785	0.777	0.505	0.528
上界（姿态编码器 LP）	0.851	—	0.649	—

NinaPro 上 EMBridge ZS 已知/未见手势分别为 0.692 / 0.447，相比 CPEP（0.604 / 0.413）提升显著。

消融实验（emg2pose ZS 未见手势）¶

配置	LP 已知	ZS 已知	LP 未见	ZS 未见
EMBridge w/o Q-Former	0.793	0.763	0.538	0.494
EMBridge w/o MPRL	0.783	0.764	0.494	0.516
EMBridge w/o CASCLe	0.784	0.764	0.485	0.509
标签平滑替代 CASCLe	0.777	0.759	0.489	0.511
SoftCLIP 替代 CASCLe	0.788	0.760	0.490	0.510
EMBridge（完整）	0.785	0.777	0.505	0.528

关键发现¶

EMBridge 的 ZS 已知手势性能（0.777）超越了所有单模态基线的 LP 性能（最高 0.734），说明跨模态对齐确实提升了 EMG 表示的判别力。
即使只使用 40% 的配对预训练数据，EMBridge 零样本性能仍超越在全量数据上训练的单模态基线，数据效率突出。
在未见用户的每人 ZS 性能上，EMBridge 相比 CPEP 平均提升 16.0%（F1），体现出对个体差异的鲁棒性。

亮点与洞察¶

非对称设计的必要性：冻结高质量模态编码器作为固定锚点是关键设计选择——若对称训练，噪声 EMG 的梯度会破坏姿态空间的语义结构；同时，固定姿态编码器使其可独立用大量无配对姿态数据预训练，未来可显著提升监督质量而无需更多配对数据。
社区感知软目标的实际效果：手势姿态空间的连续性使得硬负例惩罚有害，CASCLe 通过聚类找到自然的语义邻域，比实例级相似度（SoftCLIP）更稳定，在零样本泛化上一致优于其他软目标方案。
Q-Former 权衡：Q-Former 在零样本上最大化了泛化能力（因查询机制更灵活），但线性探测性能略逊于 CPEP（直接用 CLS token），这是"表示灵活性 vs 特征确定性"的常见权衡。

局限与展望¶

框架依赖配对 EMG-姿态数据做预训练，高质量配对数据集稀缺是实际瓶颈；未来可探索大规模无配对姿态数据预训练姿态编码器，再用少量配对数据做 EMBridge 对齐。
目前只探索了 EMG-姿态模态组合；扩展到 RGB-EMG 或 Video-EMG 对齐（利用预训练视觉编码器）是自然延伸，可进一步提升监督信号质量。
姿态社区建模使用硬性 \(k\)-means；未来可用高斯混合模型引入软概率社区归属，使结构相似度计算更连续平滑。

评分¶

新颖性: ⭐⭐⭐⭐ 首次将 Q-Former + 掩码重建 + 社区级软对比联合应用于 EMG 跨模态对齐，非对称架构设计有明确动机
实验充分度: ⭐⭐⭐⭐ 覆盖两个数据集、多个评估协议（ZS/LP）、详细消融和超参敏感性分析，数据效率实验增添实用说服力
写作质量: ⭐⭐⭐⭐ 结构清晰，方法动机推导完整，图表与正文对应良好
价值: ⭐⭐⭐⭐ 零样本 EMG 手势识别有明确的 VR/AR、假肢控制等落地场景，方法框架对其他生物信号跨模态研究有参考价值