Decentralized Attention Fails Centralized Signals: Rethinking Transformers for Medical Time Series¶

会议: ICLR 2026
arXiv: 2602.18473
代码: https://github.com/Levi-Ackman/TeCh
领域: 医学图像
关键词: 医学时间序列, Transformer, 通道依赖, 核心Token, 线性复杂度

一句话总结¶

提出 TeCh 框架，核心是用 CoTAR（Core Token Aggregation-Redistribution）模块替代 Transformer 中的标准注意力来建模医学时间序列的通道依赖——通过引入全局"核心 token"充当代理，先聚合所有通道信息再重分配回每个通道，复杂度从 \(O(n^2)\) 降至 \(O(n)\)，在 APAVA 数据集上精度 86.86%（超 Medformer 12.13%），内存仅 33%、推理时间仅 20%。

研究背景与动机¶

领域现状：医学时间序列（EEG/ECG）分析需要同时建模两种关键模式——时间依赖（单通道内的时间动态）和通道依赖（多通道间的交互）。近年 Transformer 在时间依赖建模上表现优异（Medformer、PatchTST 等），但通道依赖建模仍是短板。

现有痛点：Transformer 的标准注意力是"去中心化"的——每个 token 与所有其他 token 直接交互（peer-to-peer），但医学信号本质上是"中心化"的：EEG 由丘脑-皮质回路集中控制、ECG 由窦房结统一协调。这种结构性不匹配导致注意力机制倾向于稀释中枢驱动的主模式。

核心矛盾：问题不在于注意力不够强大，而在于其去中心化架构与中心化信号之间存在根本性的结构不匹配。当每个通道都可以被噪声通道直接影响时，集中协调的信号模式会被淹没。

本文目标（a）设计一种匹配中心化信号结构的通道交互机制；（b）将计算复杂度从二次降至线性；（c）自适应处理不同数据集中时间/通道依赖的不同重要性。

切入角度：受分布式系统中星型架构启发——传统 P2P 通信低效，设立中央服务器聚合和分发信息更高效可靠。类比到医学信号：设一个"核心 token"代理所有通道间的通信。

核心 idea：用全局核心 token 代理替代 peer-to-peer 注意力——所有通道先聚合到核心 token，再由核心 token 重分配回每个通道，模拟中枢系统的信号传播模式。

方法详解¶

整体框架¶

TeCh 接受 MedTS 输入 \(X \in \mathbb{R}^{T \times C}\)（\(T\) 时间步，\(C\) 通道），经过自适应双分词产生 Temporal embedding 和 Channel embedding，分别送入 \(M\) 和 \(N\) 个 Transformer Encoder（注意力替换为 CoTAR），最后各分支的输出在通道维度取均值后求和，经线性层投影为分类结果 \(\hat{Y} \in \mathbb{R}^K\)。\(M\) 和 \(N\) 可调，设为 0 即移除对应分支。

关键设计¶

CoTAR（Core Token Aggregation-Redistribution）：
- 功能：替代标准注意力，用一个全局核心 token 作为中介实现通道间的间接交互
- 核心思路：给定输入 \(O \in \mathbb{R}^{S \times D}\)，先通过 MLP 投影为 \(\tilde{O} \in \mathbb{R}^{S \times D_c}\)，对 token 维度做 Softmax 得到权重 \(O_w\)，加权求和得到核心 token \(\tilde{C_o} \in \mathbb{R}^{D_c}\)（聚合阶段）。然后将核心 token Repeat 到每个 token 位置，与原始 \(O\) 拼接后通过另一个 MLP 输出 \(A \in \mathbb{R}^{S \times D}\)（重分配阶段）。整个过程只有矩阵-向量运算，复杂度 \(O(S)\)
- 设计动机：标准注意力的 \(QK^T\) 运算让每个 token 直接与所有 token 交互（去中心化），噪声通道可直接污染其他通道；CoTAR 通过核心 token 中介，等价于星型拓扑——噪声通道只能间接影响其他通道，天然具有抗噪性
自适应双分词（Adaptive Dual Tokenization）：
- 功能：同时提取时间维度和通道维度的两种 token 表示
- Temporal embedding：将 \(L\) 个时间步跨所有通道展平后嵌入，得到 \(E \in \mathbb{R}^{P \times D}\)（\(P = \lceil T/L \rceil\)），擅长捕捉时间依赖
- Channel embedding：将每个通道的完整时间序列整体嵌入，得到 \(H \in \mathbb{R}^{C \times D}\)，保留每个通道的完整语义信息，擅长捕捉通道依赖
- 设计动机：不同数据集的时间/通道依赖强度不同。TDBrain 以时间依赖为主（仅 Temporal 分支即达 93.21%），PTB 以通道依赖为主（仅 Channel 分支即达 85.96%），APAVA 两者都重要（Dual 比单分支提升 11%+）。通过调节 \(M\)/\(N\) 自适应匹配数据特征
分类范式：
- 功能：融合两个分支的表示进行最终分类
- 核心思路：Temporal 分支输出 \(O_{te}\) 对 token 维度取均值得 \(\tilde{O}_{te}\)，Channel 分支类似得 \(\tilde{O}_{ch}\)，两者相加后线性投影：\(\hat{Y} = (\tilde{O}_{te} + \tilde{O}_{ch})W_y + b_y\)
- 设计动机：简单的加法融合避免引入额外参数，同时允许通过设 \(M=0\) 或 \(N=0\) 灵活退化为单分支

损失函数 / 训练策略¶

采用 Subject-Independent 协议：按受试者划分训练/验证/测试集，确保泛化到未见患者
5 个随机种子取均值和标准差
以验证集 F1 score 最优保存模型

实验关键数据¶

主实验¶

数据集	任务	TeCh Acc	Medformer Acc	Avg 提升
APAVA (EEG, 2类)	阿尔茨海默诊断	86.86±1.09	78.74±0.64	+9.59%
TDBrain (EEG, 2类)	帕金森诊断	93.21±0.61	89.62±0.81	+4.26%
ADFTD (EEG, 3类)	痴呆分类	54.54±0.70	53.27±1.54	~持平
PTB (ECG, 2类)	心梗诊断	85.96±2.52	83.50±2.01	+5.92%
PTB-XL (ECG, 5类)	心脏疾病分类	73.53±0.07	72.87±0.23	+0.67%
FLAAP (HAR, 10类)	人体活动识别	80.60±0.30	76.44±0.64	+3.81%
UCI-HAR (HAR, 6类)	人体活动识别	94.15±0.96	89.62±0.81	+3.41%

效率对比（APAVA, batch=128）：TeCh 仅用 Medformer 33% 内存和 20% 推理时间。

消融实验¶

双分词消融（Table 4）：

配置	APAVA Acc	APAVA F1	TDBrain Acc	PTB Acc
w/o（无分词）	50.68	50.13	53.79	72.62
Temporal only	55.93	53.71	93.21	74.74
Channel only	75.68	73.54	67.58	85.96
Dual（完整）	86.86	86.30	89.79	84.15

CoTAR 消融（Table 5）：

配置	APAVA Acc	APAVA F1	TDBrain Acc	UCI-HAR Acc
w/o CoTAR	83.31	81.99	92.69	92.40
Attention替代	83.42	82.09	90.40	93.13
CoTAR（完整）	86.86	86.30	93.21	94.15

关键发现¶

CoTAR 比标准注意力一致性更好：在所有 5 个数据集上 CoTAR 均优于 Attention，且标准差更低（整体 0.86 vs 0.96，降低 10.42%），说明中心化结构更稳定
Dual 分词在 APAVA 上提升巨大（+31% Acc vs Temporal only），说明脑电数据同时依赖时间和通道模式，单一分词会丢失关键信息
不同数据集偏好不同分词：TDBrain 偏好 Temporal（93.21%），PTB 偏好 Channel（85.96%），验证了自适应设计的必要性
噪声鲁棒性实验：在 PTB 末通道逐步加入高斯噪声（\(\beta\) 从 0 到 20），注意力的 F1 急剧下降，CoTAR 下降缓慢——因为去中心化结构让噪声直接传播，而中心化结构的核心 token 起到了缓冲作用

亮点与洞察¶

结构性不匹配的深刻洞察：不是"注意力不够好"，而是其去中心化 peer-to-peer 架构根本不适合中心化组织的生理信号。这个观察可以推广到任何具有中心化源的信号（如 fMRI、传感器网络）
CoTAR 的"星型代理"设计极其优雅：仅用 MLP + Softmax 加权求和 + Repeat 拼接，就实现了从二次到线性的复杂度降低，同时精度还大幅提升。这个设计思路可以迁移到任何需要高效全局交互的场景
核心 token 的可解释性：t-SNE 可视化显示核心 token 在时间和通道空间中都占据中心位置，且类别可分——它学到了类似"全局生理状态摘要"的表示，这与大脑全局工作空间理论和心脏起搏器同步机制高度吻合

局限与展望¶

核心 token 维度 \(D_c\) 是固定超参数，对不同数据集可能需要调优，缺乏自适应确定 \(D_c\) 的机制
仅在分类任务上验证，未涉及预测/异常检测等其他 MedTS 任务
ADFTD 三分类上仅与 Medformer 持平（54.54 vs 53.27），在高类别不平衡场景下的表现需进一步验证
双分支的 \(M\)/\(N\) 需要手动调节，可以考虑 NAS 或自适应门控

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从信号组织结构的角度重新审视注意力机制，洞察深刻
实验充分度: ⭐⭐⭐⭐ 5 个 MedTS + 2 个 HAR 数据集，消融/效率/噪声鲁棒性/可视化全面
写作质量: ⭐⭐⭐⭐⭐ 问题定义精准，类比直观（去中心化 vs 中心化），故事讲得好
价值: ⭐⭐⭐⭐⭐ 医学时间序列通道建模的新范式，CoTAR 可推广到其他中心化信号