ICLR 2026 自监督学习 ExG 可穿戴传感耳机脑电多频带 tokenization 自监督预训练任务无关表示

Beyond Hearing: Learning Task-Agnostic ExG Representations from Earphones via Physiology-Informed Tokenization¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=s79tJrxDmt
代码: 待确认
领域: 自监督表示学习 / 生理信号基础模型
关键词: ExG、可穿戴传感、耳机脑电、多频带 tokenization、自监督预训练、任务无关表示

一句话总结¶

用耳机形态的轻量硬件采集 50 小时自由生活态 ExG 数据，并提出"生理学先验的多频带 tokenization (PiMT)"把信号拆成 12 个物理意义明确的子频带 token，配合重建式自监督预训练，学到一套跨视/听/味/触/嗅五感任务都能用的任务无关 ExG 表示。

研究背景与动机¶

领域现状：ExG 信号（EEG/EMG/EOG/ECG）能反映神经、肌肉、眼动、心脏活动，是注视追踪、情绪识别、睡眠分期等一大批应用的基础。深度学习近年把单任务 ExG 分析做得很好，而基础模型（foundation model）范式则有望把"大规模数据→通用表示"的成功复制到日常 ExG 分析上。
现有痛点：ExG 基础模型几乎没人做成，卡在两点。其一，数据多样性不足——绝大多数 ExG 数据是在实验室受控环境、用笨重昂贵设备（一套 EEG 头戴动辄 $10,000–50,000）采的，规模小、场景单一，自由生活态数据几乎是空白。其二，模型设计高度任务专用——不同任务绑死不同频带（注视追踪靠低频 0.1–15 Hz，情绪识别靠高频 8–30 Hz），于是处理管线和架构都按某个固定频带定制，注视追踪的模型没法直接迁移去做情绪识别。
核心矛盾：想要通用，就得覆盖全频谱；但单一宽带滤波（如 0–100 Hz）会把各模态的生理特征糊在一起、丢失细粒度信息且难以适配具体任务——"宽带覆盖广但特征糊"与"窄带特征清晰但不通用"之间存在根本张力。此外不同硬件对各频段的增益/衰减不同，更不该预设"哪个频带/电极才重要"。
本文目标：做一套可规模化、任务无关、能在野外运行的 ExG 监测方案，硬件、数据集、训练方法三者协同设计。
核心 idea：【硬件破数据瓶颈】 把 ExG 传感塞进耳机形态（NeuroBuds），低成本、可长期佩戴，先把自由生活态数据采起来；【物理先验破任务专用】 不预设任务频带，而是按公认生理学知识把信号固定拆成 12 个子频带 token，让模型自己在全频谱里挑任务相关特征；【重建式自监督】 用无标注自由生活数据做多目标重建预训练，学到可迁移的通用表示。

方法详解¶

整体框架¶

PiMT 是一条"分频带 token 化 → 双向 Mamba 编码 → 重建预训练 → 下游微调"的流水线：原始多通道 ExG 信号先被一个固定的生理学滤波器组拆成 12 个子频带，每个频带切 patch 并经共享线性层投影成 token；这些按"频率→通道→时间"排好序的 token 喂进双向 Mamba 编码器得到上下文表示；预训练阶段用 6 个重建任务（含时域/频域、原始/掩码版本）联合优化编码器；下游再接任务头微调。

flowchart LR
    A[原始多通道 ExG 信号] --> B[ExG 滤波器组<br/>12 个生理频带]
    B --> C[Patch 切分 + 共享线性 tokenizer<br/>频率×通道×时间 三维 token]
    C --> D[双向 Mamba 编码器<br/>f→c→l 扫描顺序]
    D --> E[预训练: 6 个重建 decoder<br/>时域/频域 × 原始/掩码]
    D --> F[微调: 分类头 / 回归头]

关键设计¶

1. 生理学先验的多频带 tokenization（PiMT）：把"该看哪个频带"从超参变成结构。 不同于按任务定制窄带或硬塞一个宽带，PiMT 依据公认生理学知识预定义 12 个 canonical 子频带滤波器，覆盖跨模态的关键节律——EEG 的 delta(0.5–4 Hz)/theta(4–8 Hz)/alpha(8–13 Hz)/beta(13–30 Hz)/gamma(30–100 Hz)、EMG 的低/中/高频(15–45 / 45–95 / 95–100 Hz)、EOG 整体(0.1–20 Hz)、ECG 的低/高频(0.03–0.12 / 0.12–0.488 Hz)以及 QRS 复合波(8–50 Hz)。给定通道信号 $X_c \in \mathbb{R}^T$，并行套用全部 $N_F$ 个滤波器得到逐频带信号 $X_{f,c} \in \mathbb{R}^T$，每个只保留频带 $f$ 内的成分。这样模型拿到的不是一团糊在一起的宽带信号，而是 12 路"物理意义明确的同源视图"，从结构上保证了对全频谱的细粒度访问。

2. 三维 patch token 化 + 频率优先的扫描顺序。 每路频带信号 $X_{f,c}$ 被切成不重叠 patch $p_{f,c,l} \in \mathbb{R}^w$，于是每个 patch 同时被频率 $f$、通道 $c$、时间 $l$ 三个维度定位，形成结构化的 3D 表示；再经一个跨所有 token 共享的线性 tokenizer 投影成 $e_{f,c,l} \in \mathbb{R}^d$。把多频带显式拆开会让序列变长，因此编码器选双向 Mamba：它对序列建模是线性复杂度，而 Transformer 是平方复杂度，正好适配这条加长的序列。embedding 按经验最优的 $(f \times c \times l)$ 顺序（频率优先、通道其次、时间最后）展平送入编码器，输出上下文表示 $z$ 供下游任务头使用。

3. 六任务重建式自监督预训练：从无标注自由生活数据榨取鲁棒表示。 作者沿用"重建优于对比学习"的生理基础模型经验，设计 6 个各带独立轻量 MLP decoder、共享同一编码器的重建任务：(i) 自编码——直接重建原始 patch，逼编码器抓时域特征并降噪；(ii) 掩码重建——沿时间/通道/频率三个维度部分遮盖输入 $p_{\text{mask}}$ 再恢复，强迫上下文推断；(iii–iv) 频域幅度/相位重建——对 $z$ 经 FFT 得到的幅度 $p_A$、相位 $p_P$ 分别重建；(v–vi) 掩码频域重建——对掩码输入再做一遍幅度/相位重建，提升从残缺输入推断频谱的能力。各任务用 MAE 损失，按系数 $\lambda$ 加权求和成总重建损失 $\mathcal{L} = \sum_t \lambda_t \mathcal{L}_t$。微调时编码器当特征提取器：分类任务对 patch 输出做均值池化后接全连接 + 交叉熵，回归任务（注视追踪）用 patch 级线性 decoder 产出序列再聚合。

4. NeuroBuds 硬件 + DailySense 数据集的协同设计。 方法之所以成立，离不开一个能采到野外数据的硬件：NeuroBuds 是耳挂式 ExG 原型，把放大、数字化、板载存储、无线传输集成进一块 4.2 cm × 2.2 cm、20 g、$80 的轻量 PCB，耳周电极同时拿到近耳 EEG（T7–T10 等位点）、耳廓 EMG、外侧 EOG，覆盖认知/肌肉/眼动。基于它，作者采了 DailySense：22 名被试、50 小时无标注自由生活录音 + 20 小时跨五感（视/听/味/触/嗅，含注视追踪、视频/音频兴趣推断、纹理/味觉/气味分类共六个基准任务）的有标注数据。预处理刻意保持极简（50/60 Hz 陷波 + Butterworth 带通 + 重采样到 200 Hz + 归一化 + 4 秒窗），避免引入任务相关假设而破坏"任务无关"目标。硬件、数据、训练方法三者互为支撑，是这套方案能跑通的根本。

实验关键数据¶

主实验表格（DailySense，分类用 F1↑，注视追踪用角误差↓）¶

方法	Video	Audio	Taste	Touch	Smell	分类 Avg.	Gaze
SVM	0.665	0.610	0.556	0.554	0.510	0.579	6.60°
EEGNet	0.753	0.712	0.709	0.643	0.669	0.697	6.52°
DeepConvNet	0.680	0.706	0.633	0.638	0.636	0.659	7.04°
TST	0.773	0.705	0.731	0.669	0.667	0.709	6.54°
PatchTST	0.771	0.749	0.731	0.686	0.681	0.724	6.47°
EEGConformer	0.738	0.752	0.688	0.678	0.670	0.705	6.53°
Bidirectional-Mamba	0.820	0.858	0.733	0.762	0.722	0.779	6.53°
PiMT（无预训练）	0.858	0.885	0.790	0.807	0.753	0.819	6.11°
PatchTST（带预训练）	0.807	0.786	0.697	0.700	0.670	0.732	6.42°
PiMT（带预训练）	0.964	0.961	0.801	0.860	0.793	0.876	6.00°

即使不预训练，PiMT 也以 81.9% 平均 F1 / 6.11° 注视误差超过所有 baseline（较最强 baseline +4% F1、−0.41° 误差）；加上自由生活数据预训练后平均 F1 从 81.9% 提到 87.6%，而 PatchTST 同样预训练只从 72.4% 微涨到 73.2%，说明 PiMT 与重建式预训练的组合才能真正吃到野外数据的红利。

消融实验表格（频带数量，DailySense）¶

Tokenization 策略	分类 F1 趋势	注视误差
1-band (0.1–75 Hz)	最低	最高
2-band	↑	↓
4-band	↑↑	↓↓
12-band（本文）	最高（较少频带 +4.6% F1）	最低

性能随频带数单调上升，12 频带相比更粗的切分平均涨 4.6% F1 且注视误差最低，验证"细粒度物理频带分解能挖出微弱但有生理意义的频谱线索"。

关键发现¶

公开基准也成立：在 DREAMER(0.910)、SEED(0.820)、Sleep-EDF(0.822)、BCI Competition IV 2b(0.693) 四个公开数据集上，PiMT 全面超过 PatchTST 与 Bidirectional-Mamba，证明泛化不止于自采数据集。
显著性分析印证物理先验：注视/视频任务在低频带强激活（贴合眼动），味/触/嗅/听觉兴趣任务在高频带强激活（贴合体感 beta–低 gamma 与近耳 EMG），且这种任务相关的频带聚焦是无监督自动出现的。
数据规模可扩展：预训练数据越多测试损失越低；下游分类性能在约 30% 预训练数据处趋于饱和，呈现合理的边际递减。

亮点与洞察¶

把领域知识当结构而非超参：与其让模型从零学"该看哪个频带"，不如直接按生理学拆成 12 个物理频带 token，既保留全频谱细粒度、又天然支持任务无关——这是一种很优雅的"先验注入"方式。
硬件—数据—算法三位一体：论文的真正贡献不是单点算法，而是用一个 $80 的耳机原型把"野外 ExG 数据"这个长期空白补上，再用 PiMT + 自监督把数据红利兑现，三者缺一不可。
Mamba 用在刀刃上：多频带显式展开会让序列变长，正好用 Mamba 的线性复杂度抵消，这个动机比"为新而新"地换 backbone 更扎实。
DailySense 填补"五感"基准空白：首个能跨视/听/味/触/嗅做 ExG 分析的数据集，对社区有独立价值。

局限与展望¶

数据集尚未公开：DailySense 还在走 IRB / 法务流程，能否公开或有条件共享未定，复现门槛高。
被试与时长规模仍偏小：22 人、单任务最多 7 人参与，跨被试泛化、长尾人群（年龄/生理差异）覆盖有限。
12 频带是人工固定的：虽有生理学依据，但频带边界仍是手工设定，是否对所有任务/硬件最优、能否做成可学习的自适应频带划分值得探索。
任务仍是二分类为主：味/触/嗅都是 2 类（甜vs酸、粗vs滑、花vs酸），离真实复杂日常场景还有距离。
野外鲁棒性细节：自由生活态下运动伪迹、佩戴漂移、电极接触变化对长期稳定性的影响，论文未充分压力测试。

评分¶

新颖性: ⭐⭐⭐⭐ — 生理学先验的 12 频带 tokenization + 耳机硬件 + 自由生活态数据集三者协同，是 ExG 基础模型方向少见的系统性原创，单点技术虽不算颠覆但组合很新。
实验充分度: ⭐⭐⭐⭐ — 自采六任务 + 四个公开基准 + 频带数消融 + 显著性分析 + 数据规模曲线，覆盖全面；扣分在数据集未公开、规模偏小、任务多为二分类。
写作质量: ⭐⭐⭐⭐ — 动机—矛盾—方法逻辑清晰，图1/图2把流水线与数据集讲得明白，物理频带与任务对应关系交代到位。
价值: ⭐⭐⭐⭐ — 把 ExG 推向"野外、任务无关、可穿戴"，DailySense 与 NeuroBuds 对社区有长期价值，落地潜力大。