Kernelized Edge Attention: Addressing Semantic Attention Blurring in Temporal Graph Neural Networks¶
会议: AAAI 2026
arXiv: 2602.00596
代码: 无
领域: 图学习
关键词: 时序图神经网络, 边注意力, 连续时间核, 语义模糊, 链接预测
一句话总结¶
本文提出 KEAT(Kernelized Edge Attention for Temporal Graphs),通过连续时间核(Laplacian、RBF、可学习 MLP)调制边特征来解决时序图神经网络中节点与边表示纠缠导致的语义注意力模糊问题,在链接预测任务上实现了对 DyGFormer 高达 18% 和 TGN 7% 的 MRR 提升。
研究背景与动机¶
领域现状:时序图神经网络(TGNNs)旨在捕捉动态图中交互的时间演化结构。许多模型通过时间编码或架构设计来整合时间信息,代表性方法包括 TGN(时间图网络)和 DyGFormer(动态图Transformer)。
现有痛点:现有 TGNN 在计算注意力时将节点表示和边特征纠缠在一起,未能区分两者截然不同的时间行为:(1)节点嵌入变化缓慢——它们聚合长期结构上下文,反映节点的持久特性;(2)边特征变化快速——每条边对应一次时间戳化的交互(如消息、交易、转账),是瞬态的、信息丰富的。这种不匹配导致了"语义注意力模糊"——注意力权重无法区分漂移缓慢的节点状态和快速变化的边交互。
核心矛盾:节点和边的时间尺度不同但注意力计算将它们混为一谈——慢变化的节点嵌入稀释了快变化面特征所携带的精细时间依赖信息。
本文目标:设计一种保留节点和边各自角色的注意力机制,使时间相关性计算更准确、可解释且时间感知。
切入角度:不在注意力中混合处理节点和边,而是用连续时间核函数独立调制边特征的时间权重,使近期的边交互获得更高权重。
核心 idea:用核化的边注意力(kernelized edge attention)替代标准的混合注意力,通过时间卷积核分离节点和边的角色。
方法详解¶
整体框架¶
KEAT 作为一个注意力模块可以无缝集成到 Transformer 风格(DyGFormer)和消息传递风格(TGN)的 TGNN 中。输入为时序图中的节点特征和带时间戳的边特征;KEAT 用时间核调制边特征后再计算注意力,输出时间感知的节点更新。
关键设计¶
-
连续时间核函数族:
- 功能:为边特征提供基于时间差的权重调制。
- 核心思路:设计三种时间核:(a)Laplacian 核 \(K(t) = \exp(-|t|/\sigma)\),对时间差做指数衰减;(b)RBF 核 \(K(t) = \exp(-t^2/(2\sigma^2))\),对时间差做高斯衰减;(c)可学习 MLP 核——用小型 MLP 直接学习时间差到权重的映射。这些核函数作用于边的时间戳与当前时间的差值,近期交互获得高权重,远期交互衰减。
- 设计动机:固定的时间编码(如正弦编码)无法区分不同重要度的时间跨度。连续时间核提供了自然的"最近优先"衰减模式,且不同核函数适用于不同的时间依赖模式。
-
核化边注意力机制:
- 功能:在注意力计算中保持节点和边的角色分离。
- 核心思路:标准注意力将节点和边特征拼接后计算 attention score。KEAT 改为:先用时间核调制边特征 \(e'_{ij} = K(\Delta t_{ij}) \cdot e_{ij}\),然后在计算注意力时明确区分节点 query/key 和核化后的边 value。注意力分数主要由节点间的相似性决定,而信息传递的内容由核化边特征决定。
- 设计动机:注意力的"who to attend to"应由节点关系决定(结构相似的节点互相关注),"what to aggregate"应由边特征决定(最近的交互携带最新信息)。分离两者避免了语义混淆。
-
架构无关的即插即用设计:
- 功能:使 KEAT 可以与不同的 TGNN 骨干网络组合。
- 核心思路:KEAT 遵循标准的注意力接口(Q, K, V),可以直接替换 DyGFormer 中的自注意力层或 TGN 中的消息聚合层。唯一的修改是边特征在进入注意力前经过时间核调制。
- 设计动机:TGNN 领域架构多样,一个好的注意力改进应该是通用的,而非仅适用于特定架构。
损失函数 / 训练策略¶
标准的链接预测训练目标(二元交叉熵损失),预测未来边是否存在。时间核的参数(如 \(\sigma\),MLP 参数)与主网络联合端到端训练。
实验关键数据¶
主实验¶
| 骨干网络 | 数据集 | 指标(MRR) | KEAT | 原始 | 提升 |
|---|---|---|---|---|---|
| DyGFormer | 多数据集 | MRR | 最佳 | 基线 | 最高+18% |
| TGN | 多数据集 | MRR | 最佳 | 基线 | 最高+7% |
消融实验¶
| 核函数类型 | MRR | 说明 |
|---|---|---|
| Laplacian核 | 好 | 指数衰减,简单有效 |
| RBF核 | 好 | 高斯衰减,对近期交互更敏感 |
| MLP核 | 最灵活 | 可学习非单调的时间权重模式 |
| 无时间核 | 基线 | 原始混合注意力 |
关键发现¶
- KEAT 在两种不同架构的 TGNN 上都带来了显著提升,证明了语义注意力模糊是一个普遍问题。
- 18% 的 MRR 提升在链接预测领域是非常大的改进。
- 可学习 MLP 核最灵活但不一定最好——简单的 Laplacian/RBF 核在某些数据集上效果相当甚至更好。
- 时间核的 \(\sigma\) 参数反映了数据集中交互的时间尺度——高频交互数据集偏好小 \(\sigma\)(快速衰减)。
亮点与洞察¶
- "语义注意力模糊"的命名和分析清晰地定义了一个之前被忽略的基础问题,为后续 TGNN 研究提供了新的改进方向。
- 时间核调制的elegant设计:一行代码的改动(边特征乘以时间核)就能带来显著提升。
- 架构无关性使本方法具有广泛的即插即用价值。
局限与展望¶
- 连续时间核假设时间衰减是单调的(越近越重要),但某些场景可能存在周期性时间模式。
- 未探索节点级的时间衰减——KEAT 仅在边级别做时间调制。
- 可以与注意力稀疏化方法结合以提升大规模图的效率。
相关工作与启发¶
- vs DyGFormer: DyGFormer 使用 patch-based attention 在时间序列上操作,但仍混合节点和边。KEAT 明确分离了两者。
- vs TGN: TGN 使用时间图注意力层,KEAT 的核调制可以直接增强其消息传递。
- vs 时间编码方法(如 Time2Vec): Time2Vec 将时间编码为固定特征,KEAT 的核调制是一种更灵活的时间整合方式。
评分¶
- 新颖性: ⭐⭐⭐⭐ 语义注意力模糊的识别和核化边注意力的解决方案新颖
- 实验充分度: ⭐⭐⭐⭐ 两种架构+多数据集+多核函数对比
- 写作质量: ⭐⭐⭐⭐ 问题动机分析深入,方法描述清晰
- 价值: ⭐⭐⭐⭐ 对TGNN领域有即插即用的改进价值