Global-Lens Transformers: Adaptive Token Mixing for Dynamic Link Prediction¶
会议: AAAI 2026
arXiv: 2511.12442
代码: 无
领域: Autonomous Driving / Graph Learning
关键词: 动态图学习, 链接预测, 注意力机制替代, 自适应令牌混合, 层次化聚合
一句话总结¶
提出 GLFormer,一个轻量级的无注意力 Transformer 框架用于动态图链接预测,用基于交互顺序和时间间隔的自适应令牌混合器替代自注意力,配合层次化聚合机制扩展时间感受野,在 6 个基准上取得了与 Transformer 基线持平或更优的性能,同时大幅降低计算复杂度。
研究背景与动机¶
动态图学习在交通系统、社交网络、推荐系统等领域至关重要。核心任务之一是动态链接预测——预测未来某个时间点两个节点之间是否会产生交互。
当前方法普遍采用 Transformer 架构来捕获交互序列中的长程时间依赖关系。典型流程是:先通过时间感知随机游走或记忆网络提取结构信息,再用 Transformer 学习历史交互序列中的时间依赖。然而,自注意力机制的计算复杂度与序列长度呈二次方关系,在高频或大规模图上难以扩展。此外,注意力机制不加区分地聚合所有成对交互,可能放大噪声并降低泛化能力。
关键观察:受计算机视觉领域 MetaFormer 等工作启发,Transformer 的成功可能更多归功于其架构设计(残差连接、FFN 等),而非自注意力本身。作者通过控制实验验证了这一猜想——在五种 Transformer 基线上用 pooling 或 MLP 替代自注意力,在四个数据集上性能往往持平。
这引出了核心问题:能否设计更简单、无注意力的架构用于动态图,保持表征能力的同时大幅降低计算开销?
方法详解¶
整体框架¶
GLFormer 的 pipeline: 1. 嵌入层:利用现有动态图方法(TGN/TGAT/DyGFormer 等)获取邻居初始嵌入 2. 自适应令牌混合器:替代自注意力,基于交互顺序和时间间隔进行局部聚合 3. 通道混合器:标准 FFN,学习通道间依赖 4. 层次化聚合:多层堆叠扩展时间感受野 5. 链接预测:MLP 解码器基于节点对的时间表征预测链接概率
关键设计¶
-
自适应令牌聚合模块(Adaptive Token Aggregation):
- 功能:对每个邻居 \(u_i\),从其最近的 \(M\) 个邻居中加权聚合信息
- 核心思路:聚合权重 \(\alpha_p^i = \beta \mathbf{w}_p + (1 - \beta) \theta_p^i\) 融合两种因素
- 顺序权重 \(\mathbf{w}_p\):可学习参数,捕捉交互顺序的重要性
- 时间权重 \(\theta_p^i\):通过对时间间隔应用 softmax 计算,\(\theta_p^i = \frac{\exp(-(t_i - t_{i-p}))}{\sum_q \exp(-(t_i - t_{i-q}))}\),时间距离越近权重越大
- 可学习参数 \(\beta\) 控制两者的融合比例
- 设计动机:在动态图中,最近的邻居提供了最相关的交互模式,局部聚合比全局注意力更有效且更高效
-
层次化聚合机制(Hierarchical Aggregation):
- 功能:受膨胀因果卷积启发,随层数增加逐步扩展聚合的时间跨度
- 核心思路:定义层级偏移集合 \(\mathcal{R}_l = \{p \in \mathbb{Z} \mid s^{l-1} \leq p \leq s^l\}\),随着 \(l\) 增大,聚合范围覆盖更远的历史交互
- 第 \(l\) 层的聚合:\(\mathbf{H}_{i,:}^{(l)} = \sum_{p \in \mathcal{R}_l} (\alpha_p^i)^{(l)} \mathbf{H}_{\text{TA}, i-p}^{(l-1)}\)
- 超出序列边界的位置被因果掩码处理
- 设计动机:在保持局部聚合低复杂度的同时,通过堆叠捕获长程时间依赖,类似不同尺度的卷积核
-
复杂度优势:
- 功能:将每层复杂度从自注意力的 \(O(N^2)\) 降低到 \(O(NK_l)\)
- 总复杂度 \(O(\sum_{l=1}^L NK_l)\),当 \(K_l \ll N\) 时远低于二次方
- 每层只需 \(O(K_l)\) 个核参数,参数效率极高
损失函数 / 训练策略¶
- 二元交叉熵损失,1:1 负采样策略
- 正样本为实际交互 \((u_i, v_j, t)\),负样本从非交互节点中随机采样
- 预测概率 \(\hat{y} = \sigma(\mathbf{K}_2(\text{ReLU}(\mathbf{K}_1([\mathbf{Z}_{u_i}; \mathbf{Z}_{v_j}]))))\)
实验关键数据¶
主实验¶
AP(Average Precision)指标,GLFormer 平均排名:
| 骨干网络 | Vanilla (排名) | Pooling (排名) | MLP (排名) | GLFormer (排名) |
|---|---|---|---|---|
| TGN | 3.17 | 2.83 | 2.17 | 1.67 |
| TCL | 3.33 | 3.50 | 2.00 | 1.17 |
| TGAT | 3.00 | 3.50 | 2.17 | 1.17 |
| CAWN | 2.83 | 3.00 | 1.33 | 2.50 |
| DyGFormer | 2.17 | 3.17 | 3.33 | 1.00 |
具体数值(DyGFormer 骨干):
| 数据集 | Vanilla AP | GLFormer AP | 差异 |
|---|---|---|---|
| Wikipedia | 99.03 | 99.03 | +0.00 |
| 99.22 | 99.24 | +0.02 | |
| MOOC | 87.52 | 87.87 | +0.35 |
| LastFM | 93.00 | 93.34 | +0.34 |
| SocialEvo | 94.73 | 94.76 | +0.03 |
| Enron | 92.47 | 92.62 | +0.15 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 令牌混合器类型 | ||
| Self-Attention (Vanilla) | 排名 2-3 | 原始 Transformer |
| Average Pooling | 排名 3-3.5 | 简单平均,通常最差 |
| MLP | 排名 1.3-2.3 | 非线性变换,较强 |
| GLFormer | 排名 1-1.67 | 最优或次优 |
| 层次化聚合 | ||
| 单层固定窗口 | 性能较低 | 感受野有限 |
| 多层层次化 | 性能提升 | 捕获长程依赖 |
| AUC-ROC 指标 | ||
| GLFormer 在 TGN 上 | 排名 1.67 | 一致优于原始注意力 |
| GLFormer 在 DyGFormer 上 | 排名 1.00 | 6 个数据集全面最优 |
关键发现¶
- GLFormer 在大多数骨干网络和数据集上排名第一或第二,无注意力架构确实能匹配甚至超越 Transformer 基线
- 在 DyGFormer 骨干上效果最佳(AP 和 AUC-ROC 均排名 1.00),说明长序列建模场景下优势更明显
- CAWN 骨干上 MLP 变体更强(排名 1.33 vs GLFormer 2.50),说明不同骨干对令牌混合器的偏好不同
- 时间权重和顺序权重的融合通过可学习 \(\beta\) 自适应平衡,消融显示两者缺一不可
- 计算效率显著:推理速度快于所有使用自注意力的基线
亮点与洞察¶
- 反直觉发现:动态图学习中自注意力并非不可替代,简单的局部聚合加层次化堆叠即可匹配
- 时间感知的设计:同时建模交互顺序(学习到的位置权重)和时间间隔(物理时间衰减),比通用注意力更适合时序场景
- 膨胀因果卷积的启发:将 WaveNet 的层次化感受野扩展思想引入动态图
- 即插即用:可直接替换现有方法的注意力模块(TGN/TGAT/DyGFormer 等)
- 复杂度分析清晰,理论和实验一致
局限与展望¶
- 在 CAWN 骨干上表现不如 MLP 变体,适应性因骨干而异
- 部分数据集上提升幅度较小(如 Wikipedia 仅 +0.00),高性能区间改进空间有限
- 层次化聚合的超参数(基数 \(s\)、层数 \(L\))需要针对不同数据集调优
- 未在超大规模图(百万节点级)上验证可扩展性
- 未考虑边特征的影响,当前只利用了节点特征和时间戳
相关工作与启发¶
- MetaFormer/PoolFormer 的"注意力不是全部"思想在图学习中同样成立
- 局部聚合 + 层次化扩展的范式可推广到时间序列预测等领域
- 时间衰减权重 \(\theta_p^i\) 的设计简单有效,可借鉴到其他时序建模任务
- 动态图学习方法的"嵌入 + 聚合"两阶段范式为架构探索提供了灵活的实验框架
评分¶
- 新颖性: ⭐⭐⭐⭐ — 问题重要、实验验证了反直觉假设,但技术手段相对简单
- 实验充分度: ⭐⭐⭐⭐⭐ — 6 数据集、5 骨干网络、AP+AUC-ROC 双指标、完整消融
- 写作质量: ⭐⭐⭐⭐ — 动机论证严密,初步实验设计精巧
- 价值: ⭐⭐⭐⭐ — 为动态图学习提供了高效替代方案,实用性强