跳转至

Decentralized Attention Fails Centralized Signals: Rethinking Transformers for Medical Time Series

会议: ICLR 2026
arXiv: 2602.18473
代码: https://github.com/Levi-Ackman/TeCh
领域: 医学图像
关键词: 医学时间序列, Transformer, 通道依赖, 核心Token, 线性复杂度

一句话总结

提出 TeCh 框架,核心是用 CoTAR(Core Token Aggregation-Redistribution)模块替代 Transformer 中的标准注意力来建模医学时间序列的通道依赖——通过引入全局"核心 token"充当代理,先聚合所有通道信息再重分配回每个通道,复杂度从 \(O(n^2)\) 降至 \(O(n)\),在 APAVA 数据集上精度 86.86%(超 Medformer 12.13%),内存仅 33%、推理时间仅 20%。

研究背景与动机

领域现状:医学时间序列(EEG/ECG)分析需要同时建模两种关键模式——时间依赖(单通道内的时间动态)和通道依赖(多通道间的交互)。近年 Transformer 在时间依赖建模上表现优异(Medformer、PatchTST 等),但通道依赖建模仍是短板。

现有痛点:Transformer 的标准注意力是"去中心化"的——每个 token 与所有其他 token 直接交互(peer-to-peer),但医学信号本质上是"中心化"的:EEG 由丘脑-皮质回路集中控制、ECG 由窦房结统一协调。这种结构性不匹配导致注意力机制倾向于稀释中枢驱动的主模式。

核心矛盾:问题不在于注意力不够强大,而在于其去中心化架构与中心化信号之间存在根本性的结构不匹配。当每个通道都可以被噪声通道直接影响时,集中协调的信号模式会被淹没。

本文目标(a)设计一种匹配中心化信号结构的通道交互机制;(b)将计算复杂度从二次降至线性;(c)自适应处理不同数据集中时间/通道依赖的不同重要性。

切入角度:受分布式系统中星型架构启发——传统 P2P 通信低效,设立中央服务器聚合和分发信息更高效可靠。类比到医学信号:设一个"核心 token"代理所有通道间的通信。

核心 idea:用全局核心 token 代理替代 peer-to-peer 注意力——所有通道先聚合到核心 token,再由核心 token 重分配回每个通道,模拟中枢系统的信号传播模式。

方法详解

整体框架

TeCh 接受 MedTS 输入 \(X \in \mathbb{R}^{T \times C}\)\(T\) 时间步,\(C\) 通道),经过自适应双分词产生 Temporal embedding 和 Channel embedding,分别送入 \(M\)\(N\) 个 Transformer Encoder(注意力替换为 CoTAR),最后各分支的输出在通道维度取均值后求和,经线性层投影为分类结果 \(\hat{Y} \in \mathbb{R}^K\)\(M\)\(N\) 可调,设为 0 即移除对应分支。

关键设计

  1. CoTAR(Core Token Aggregation-Redistribution)

    • 功能:替代标准注意力,用一个全局核心 token 作为中介实现通道间的间接交互
    • 核心思路:给定输入 \(O \in \mathbb{R}^{S \times D}\),先通过 MLP 投影为 \(\tilde{O} \in \mathbb{R}^{S \times D_c}\),对 token 维度做 Softmax 得到权重 \(O_w\),加权求和得到核心 token \(\tilde{C_o} \in \mathbb{R}^{D_c}\)(聚合阶段)。然后将核心 token Repeat 到每个 token 位置,与原始 \(O\) 拼接后通过另一个 MLP 输出 \(A \in \mathbb{R}^{S \times D}\)(重分配阶段)。整个过程只有矩阵-向量运算,复杂度 \(O(S)\)
    • 设计动机:标准注意力的 \(QK^T\) 运算让每个 token 直接与所有 token 交互(去中心化),噪声通道可直接污染其他通道;CoTAR 通过核心 token 中介,等价于星型拓扑——噪声通道只能间接影响其他通道,天然具有抗噪性
  2. 自适应双分词(Adaptive Dual Tokenization)

    • 功能:同时提取时间维度和通道维度的两种 token 表示
    • Temporal embedding:将 \(L\) 个时间步跨所有通道展平后嵌入,得到 \(E \in \mathbb{R}^{P \times D}\)\(P = \lceil T/L \rceil\)),擅长捕捉时间依赖
    • Channel embedding:将每个通道的完整时间序列整体嵌入,得到 \(H \in \mathbb{R}^{C \times D}\),保留每个通道的完整语义信息,擅长捕捉通道依赖
    • 设计动机:不同数据集的时间/通道依赖强度不同。TDBrain 以时间依赖为主(仅 Temporal 分支即达 93.21%),PTB 以通道依赖为主(仅 Channel 分支即达 85.96%),APAVA 两者都重要(Dual 比单分支提升 11%+)。通过调节 \(M\)/\(N\) 自适应匹配数据特征
  3. 分类范式

    • 功能:融合两个分支的表示进行最终分类
    • 核心思路:Temporal 分支输出 \(O_{te}\) 对 token 维度取均值得 \(\tilde{O}_{te}\),Channel 分支类似得 \(\tilde{O}_{ch}\),两者相加后线性投影:\(\hat{Y} = (\tilde{O}_{te} + \tilde{O}_{ch})W_y + b_y\)
    • 设计动机:简单的加法融合避免引入额外参数,同时允许通过设 \(M=0\)\(N=0\) 灵活退化为单分支

损失函数 / 训练策略

  • 采用 Subject-Independent 协议:按受试者划分训练/验证/测试集,确保泛化到未见患者
  • 5 个随机种子取均值和标准差
  • 以验证集 F1 score 最优保存模型

实验关键数据

主实验

数据集 任务 TeCh Acc Medformer Acc Avg 提升
APAVA (EEG, 2类) 阿尔茨海默诊断 86.86±1.09 78.74±0.64 +9.59%
TDBrain (EEG, 2类) 帕金森诊断 93.21±0.61 89.62±0.81 +4.26%
ADFTD (EEG, 3类) 痴呆分类 54.54±0.70 53.27±1.54 ~持平
PTB (ECG, 2类) 心梗诊断 85.96±2.52 83.50±2.01 +5.92%
PTB-XL (ECG, 5类) 心脏疾病分类 73.53±0.07 72.87±0.23 +0.67%
FLAAP (HAR, 10类) 人体活动识别 80.60±0.30 76.44±0.64 +3.81%
UCI-HAR (HAR, 6类) 人体活动识别 94.15±0.96 89.62±0.81 +3.41%

效率对比(APAVA, batch=128):TeCh 仅用 Medformer 33% 内存20% 推理时间

消融实验

双分词消融(Table 4)

配置 APAVA Acc APAVA F1 TDBrain Acc PTB Acc
w/o(无分词) 50.68 50.13 53.79 72.62
Temporal only 55.93 53.71 93.21 74.74
Channel only 75.68 73.54 67.58 85.96
Dual(完整) 86.86 86.30 89.79 84.15

CoTAR 消融(Table 5)

配置 APAVA Acc APAVA F1 TDBrain Acc UCI-HAR Acc
w/o CoTAR 83.31 81.99 92.69 92.40
Attention替代 83.42 82.09 90.40 93.13
CoTAR(完整) 86.86 86.30 93.21 94.15

关键发现

  • CoTAR 比标准注意力一致性更好:在所有 5 个数据集上 CoTAR 均优于 Attention,且标准差更低(整体 0.86 vs 0.96,降低 10.42%),说明中心化结构更稳定
  • Dual 分词在 APAVA 上提升巨大(+31% Acc vs Temporal only),说明脑电数据同时依赖时间和通道模式,单一分词会丢失关键信息
  • 不同数据集偏好不同分词:TDBrain 偏好 Temporal(93.21%),PTB 偏好 Channel(85.96%),验证了自适应设计的必要性
  • 噪声鲁棒性实验:在 PTB 末通道逐步加入高斯噪声(\(\beta\) 从 0 到 20),注意力的 F1 急剧下降,CoTAR 下降缓慢——因为去中心化结构让噪声直接传播,而中心化结构的核心 token 起到了缓冲作用

亮点与洞察

  • 结构性不匹配的深刻洞察:不是"注意力不够好",而是其去中心化 peer-to-peer 架构根本不适合中心化组织的生理信号。这个观察可以推广到任何具有中心化源的信号(如 fMRI、传感器网络)
  • CoTAR 的"星型代理"设计极其优雅:仅用 MLP + Softmax 加权求和 + Repeat 拼接,就实现了从二次到线性的复杂度降低,同时精度还大幅提升。这个设计思路可以迁移到任何需要高效全局交互的场景
  • 核心 token 的可解释性:t-SNE 可视化显示核心 token 在时间和通道空间中都占据中心位置,且类别可分——它学到了类似"全局生理状态摘要"的表示,这与大脑全局工作空间理论和心脏起搏器同步机制高度吻合

局限与展望

  • 核心 token 维度 \(D_c\) 是固定超参数,对不同数据集可能需要调优,缺乏自适应确定 \(D_c\) 的机制
  • 仅在分类任务上验证,未涉及预测/异常检测等其他 MedTS 任务
  • ADFTD 三分类上仅与 Medformer 持平(54.54 vs 53.27),在高类别不平衡场景下的表现需进一步验证
  • 双分支的 \(M\)/\(N\) 需要手动调节,可以考虑 NAS 或自适应门控

相关工作与启发

  • vs Medformer:同样关注 MedTS 通道依赖,但 Medformer 仍用标准注意力,TeCh 替换为 CoTAR 后精度更高且效率大幅提升
  • vs iTransformer:iTransformer 提出 Channel embedding(整体通道嵌入),TeCh 在此基础上加入核心 token 代理和双分词设计
  • vs PatchTST:PatchTST 只做 Temporal embedding,缺乏通道交互建模

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 从信号组织结构的角度重新审视注意力机制,洞察深刻
  • 实验充分度: ⭐⭐⭐⭐ 5 个 MedTS + 2 个 HAR 数据集,消融/效率/噪声鲁棒性/可视化全面
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义精准,类比直观(去中心化 vs 中心化),故事讲得好
  • 价值: ⭐⭐⭐⭐⭐ 医学时间序列通道建模的新范式,CoTAR 可推广到其他中心化信号