Spatio-Temporal Directed Graph Learning for Account Takeover Fraud Detection¶

会议: NeurIPS 2025 (Workshop on New Perspective in Graph Machine Learning)
arXiv: 2509.20339
代码: 无
领域: 图学习 / 欺诈检测
关键词: GraphSAGE, 时空有向图, 欺诈检测, 标签传播, 因果推理

一句话总结¶

提出 ATLAS 框架，将账户接管（ATO）欺诈检测重新建模为时空有向图上的节点分类问题，通过时间窗口 + 最近邻约束构建因果有向图，结合延迟感知标签传播和 GraphSAGE 编码器，在 Capital One 的 1 亿节点、10 亿边大规模生产图上实现 +6.38% AUC 提升和超过 50% 的用户摩擦降低。

研究背景与动机¶

领域现状：消费金融中的账户接管（ATO）欺诈检测是一个高风险任务——攻击者通过窃取凭证控制合法账户发起高风险交易（HRT）。生产系统普遍依赖 XGBoost 等表格型梯度提升决策树，对每个会话独立评分。尽管尝试过全连接网络、RNN、Transformer 等深度架构，在相同延迟和可靠性约束下均未稳定超过 XGBoost。

现有痛点：XGBoost 逐行独立评分的 i.i.d. 假设忽略了两个关键结构——(1) 关系结构：多个可疑会话可能共享同一设备指纹、IP 地址或账户 ID，构成"欺诈环"（fraud ring）；(2) 时序结构：因果顺序和时间近因性对判断当前会话风险至关重要。这些跨会话的信号无法通过任何逐行模型捕获。

核心矛盾：生产环境对延迟有严格要求（<250ms），而图模型需要在 1 亿+ 节点的图上做邻域采样和消息传递。此外，标签具有延迟性——欺诈标签在事件发生后经审核才确认（adjudication time \(\tau_u\)），训练时必须避免使用推理时不可用的未来信息（数据泄露）。

本文目标 如何在满足生产延迟约束下，利用会话间的关系和时序结构提升 ATO 检测？如何确保训练与推理一致（无泄露）？

切入角度：将 ATO 检测从表格分类重构为时空有向图上的节点分类。关键观察是：共享标识符（账户、设备、IP）的会话之间存在有向因果关系，这种结构可以通过 GNN 的消息传递机制来利用，同时通过严格的时间约束保证因果性。

核心 idea：用时间窗口和最近邻约束构建因果有向会话图，结合延迟感知标签传播为 GraphSAGE 提供高信号邻域特征，将 ATO 检测从独立行评分升级为图结构推理。

方法详解¶

整体框架¶

ATLAS 包含三个核心组件：(1) 时间尊重的有向会话图构建；(2) 推理时一致的延迟标签传播；(3) 基于归纳式 GraphSAGE 的 GNN 编码器。输入是带有表格特征的 HRT 会话节点，输出是每个会话的欺诈风险概率 \(s_v \in [0,1]\)。

关键设计¶

时间尊重的有向图构建:
- 功能：将独立会话组织为因果有向图，暴露跨会话的关系和时序模式
- 核心思路：每个节点由 (account_id, device_id, ip_address, timestamp) 唯一标识。若两个会话 \(u, v\) 共享某个标识符且 \(t_u < t_v\)，则添加有向边 \(u \to v\)。边按标识符类型 \(m \in \{\text{account}, \text{device}, \text{IP}\}\) 分类。两个约束控制连接性：时间窗口 \(T\)（仅连接 \(0 < t_v - t_u \leq T\) 的节点）和最近邻上限 \(K\)（每个节点每种边类型最多保留 \(K\) 个最近前驱）
- 设计动机：时间窗口保证因果排序（图是 DAG），最近邻上限控制度数以满足延迟预算。三种边类型可区分不同的关联模式（如多个会话共用同一设备 vs 同一 IP）
延迟感知标签传播（Lag-aware Label Propagation）:
- 功能：为每个节点提供基于历史已知欺诈标签的高信号特征，且严格避免数据泄露
- 核心思路：对目标节点 \(v\)，收集其时间窗口内的前驱 \(R(v)\)（最多 \(K\) 个），再过滤出审核时间 \(\tau_u \leq t_v\) 的子集 \(A(v)\)（即推理时确实已知标签的邻居）。从 \(A(v)\) 计算四个统计特征：\(n^{\text{lab}}_v\)（已知标签邻居数）、\(n^{\text{fraud}}_v\)（已知欺诈邻居数）、\(r_v\)（经验欺诈率）、\(a_v\)（是否存在上游欺诈），拼接到节点原始特征上：\(h^{(0)}_v = [x_v; \ell_v]\)
- 设计动机：欺诈标签有延迟（需审核确认），直接用所有邻居标签会造成训练-推理不一致。延迟过滤确保训练时看到的标签和推理时一致，同时这 4 个简单聚合特征已编码了"上游是否有欺诈链路"的关键信号
GraphSAGE 编码器（多变体）:
- 功能：通过邻域采样和消息传递学习节点表示
- 核心思路：三个变体——(1) 同质 GraphSAGE：标准均值聚合 \(m_v^{(k)} = \text{AGG}(\{h_u^{(k-1)}: u \in S^{(k)}(v)\})\)；(2) 关系 GraphSAGE：按边类型分别聚合再融合 \(m_v^{(k)} = \sum_m \Phi_m^{(k)}(\text{AGG}_m(\cdot))\)；(3) 时间感知注意力变体：加入时间差分 \(\Delta t\) 和边类型嵌入的注意力聚合。邻域采样器在训练和推理时使用相同的 \((T, K)\) 约束。实践中浅层（\(L \in \{2,3\}\)）加适度扇出即可
- 设计动机：归纳式学习支持持续增长的图（新会话不断加入）。邻域采样使得 mini-batch 训练可行，且与推理时一致避免偏差。关系/注意力变体理论上更强但实验显示同质版本已足够

损失函数 / 训练策略¶

加权二元交叉熵损失应对极端类别不平衡。决策阈值根据目标摩擦包络校准。时间序列划分：8 个月训练、2 个月验证、5 个月测试（无重叠），数值特征仅用训练集统计量标准化。使用 PyTorch Geometric 的 NeighborLoader 进行高效的核外邻域采样。

实验关键数据¶

主实验¶

模型	AUC Overall	AUC Segment 1	AUC Segment 2
XGBoost	79.83	78.88	82.45
GNN（无标签传播）	82.27 (+3.06%)	81.59 (+3.43%)	83.82 (+1.66%)
GNN + 标签传播	84.46 (+5.8%)	83.92 (+6.38%)	85.45 (+3.63%)

消融实验¶

配置	关键发现
K: 1→10	AUC 随最近邻数增加稳步提升，更多历史会话有益
T: 1→120 天	AUC 随时间窗口扩大一致提升，更长时序上下文有价值
GNN vs GNN+LP	标签传播贡献 +2.2% AUC，是最大的单项提升
关系/注意力变体 vs 同质	额外架构复杂度带来的收益有限，大部分增益来自图结构本身

关键发现¶

标签传播是最大功臣：GNN 本身比 XGBoost 提升 +3.06%，加上标签传播再提 +2.8%，总提升 +5.8%。这说明"上游邻居是否曾被标记为欺诈"是极强的信号
简单架构即足够：同质 GraphSAGE + 标签传播已达到最优，关系/注意力变体未带来显著额外收益。增益主要来自图结构建模而非更复杂的 GNN 架构
超参数分析直觉一致：更大的 \(K\) 和 \(T\) 都带来持续提升，说明更多历史上下文和更多关联会话都是有价值的
生产部署实现超过 50% 的用户摩擦降低——在提升欺诈捕获的同时大幅减少对合法用户的干扰

亮点与洞察¶

图结构重构带来的提升远大于模型架构升级：多年来 DNN/RNN/Transformer 都没有超过 XGBoost，但一旦把问题建模为图结构，简单的 GraphSAGE 就实现了显著突破。这说明在关系数据上，正确的数据表示比模型复杂度更重要
延迟感知标签传播设计精巧：通过 \(\tau_u \leq t_v\) 条件严格保证训练-推理一致，同时 4 个简单聚合统计就编码了"欺诈链路"信号。这种简洁但无泄露的特征设计适用于任何有延迟标签的在线系统
工业级可行性：在 1 亿节点、10 亿边的图上实现了可部署的延迟约束内推理，证明 GNN 在真实金融系统中是可行的

局限与展望¶

仅为 Workshop 论文：实验部分相对简略，缺少更多消融细节（如不同 GNN 变体的性能对比表、标签传播特征的单独消融）
数据保密：由于数据敏感性，未报告数据集的描述性统计，也无法复现实验
静态图假设：虽使用 NeighborLoader 处理增长图，但未讨论图结构的时间漂移（concept drift）及模型更新策略
单产品线评估：仅在 Capital One 一个数字产品的两个 Segment 上验证，泛化性有待更多产品线和机构验证
未与其他图欺诈检测方法对比：如 temporal GNN（TGAT、TGN）或异构图方法（HGT），仅与 XGBoost baseline 比较

评分¶

新颖性: ⭐⭐⭐ 时空有向图建模和延迟标签传播思路清晰实用，但 GraphSAGE 本身非新方法
实验充分度: ⭐⭐⭐ 大规模真实数据验证有说服力，但缺与其他图方法对比，消融细节不足
写作质量: ⭐⭐⭐⭐ 问题定义清晰，公式化严谨，图构建和标签传播的描述精确
价值: ⭐⭐⭐⭐ 工业级 GNN 部署案例具有很高的实践参考价值，50%+ 摩擦降低是显著的业务影响