跳转至

Spatio-Temporal Directed Graph Learning for Account Takeover Fraud Detection

会议: NeurIPS 2025 (Workshop on New Perspective in Graph Machine Learning)
arXiv: 2509.20339
代码: 无
领域: 图学习 / 欺诈检测
关键词: GraphSAGE, 时空有向图, 欺诈检测, 标签传播, 因果推理

一句话总结

提出 ATLAS 框架,将账户接管(ATO)欺诈检测重新建模为时空有向图上的节点分类问题,通过时间窗口 + 最近邻约束构建因果有向图,结合延迟感知标签传播和 GraphSAGE 编码器,在 Capital One 的 1 亿节点、10 亿边大规模生产图上实现 +6.38% AUC 提升和超过 50% 的用户摩擦降低。

研究背景与动机

领域现状:消费金融中的账户接管(ATO)欺诈检测是一个高风险任务——攻击者通过窃取凭证控制合法账户发起高风险交易(HRT)。生产系统普遍依赖 XGBoost 等表格型梯度提升决策树,对每个会话独立评分。尽管尝试过全连接网络、RNN、Transformer 等深度架构,在相同延迟和可靠性约束下均未稳定超过 XGBoost。

现有痛点:XGBoost 逐行独立评分的 i.i.d. 假设忽略了两个关键结构——(1) 关系结构:多个可疑会话可能共享同一设备指纹、IP 地址或账户 ID,构成"欺诈环"(fraud ring);(2) 时序结构:因果顺序和时间近因性对判断当前会话风险至关重要。这些跨会话的信号无法通过任何逐行模型捕获。

核心矛盾:生产环境对延迟有严格要求(<250ms),而图模型需要在 1 亿+ 节点的图上做邻域采样和消息传递。此外,标签具有延迟性——欺诈标签在事件发生后经审核才确认(adjudication time \(\tau_u\)),训练时必须避免使用推理时不可用的未来信息(数据泄露)。

本文目标 如何在满足生产延迟约束下,利用会话间的关系和时序结构提升 ATO 检测?如何确保训练与推理一致(无泄露)?

切入角度:将 ATO 检测从表格分类重构为时空有向图上的节点分类。关键观察是:共享标识符(账户、设备、IP)的会话之间存在有向因果关系,这种结构可以通过 GNN 的消息传递机制来利用,同时通过严格的时间约束保证因果性。

核心 idea:用时间窗口和最近邻约束构建因果有向会话图,结合延迟感知标签传播为 GraphSAGE 提供高信号邻域特征,将 ATO 检测从独立行评分升级为图结构推理。

方法详解

整体框架

ATLAS 包含三个核心组件:(1) 时间尊重的有向会话图构建;(2) 推理时一致的延迟标签传播;(3) 基于归纳式 GraphSAGE 的 GNN 编码器。输入是带有表格特征的 HRT 会话节点,输出是每个会话的欺诈风险概率 \(s_v \in [0,1]\)

关键设计

  1. 时间尊重的有向图构建:

    • 功能:将独立会话组织为因果有向图,暴露跨会话的关系和时序模式
    • 核心思路:每个节点由 (account_id, device_id, ip_address, timestamp) 唯一标识。若两个会话 \(u, v\) 共享某个标识符且 \(t_u < t_v\),则添加有向边 \(u \to v\)。边按标识符类型 \(m \in \{\text{account}, \text{device}, \text{IP}\}\) 分类。两个约束控制连接性:时间窗口 \(T\)(仅连接 \(0 < t_v - t_u \leq T\) 的节点)和最近邻上限 \(K\)(每个节点每种边类型最多保留 \(K\) 个最近前驱)
    • 设计动机:时间窗口保证因果排序(图是 DAG),最近邻上限控制度数以满足延迟预算。三种边类型可区分不同的关联模式(如多个会话共用同一设备 vs 同一 IP)
  2. 延迟感知标签传播(Lag-aware Label Propagation):

    • 功能:为每个节点提供基于历史已知欺诈标签的高信号特征,且严格避免数据泄露
    • 核心思路:对目标节点 \(v\),收集其时间窗口内的前驱 \(R(v)\)(最多 \(K\) 个),再过滤出审核时间 \(\tau_u \leq t_v\) 的子集 \(A(v)\)(即推理时确实已知标签的邻居)。从 \(A(v)\) 计算四个统计特征:\(n^{\text{lab}}_v\)(已知标签邻居数)、\(n^{\text{fraud}}_v\)(已知欺诈邻居数)、\(r_v\)(经验欺诈率)、\(a_v\)(是否存在上游欺诈),拼接到节点原始特征上:\(h^{(0)}_v = [x_v; \ell_v]\)
    • 设计动机:欺诈标签有延迟(需审核确认),直接用所有邻居标签会造成训练-推理不一致。延迟过滤确保训练时看到的标签和推理时一致,同时这 4 个简单聚合特征已编码了"上游是否有欺诈链路"的关键信号
  3. GraphSAGE 编码器(多变体):

    • 功能:通过邻域采样和消息传递学习节点表示
    • 核心思路:三个变体——(1) 同质 GraphSAGE:标准均值聚合 \(m_v^{(k)} = \text{AGG}(\{h_u^{(k-1)}: u \in S^{(k)}(v)\})\);(2) 关系 GraphSAGE:按边类型分别聚合再融合 \(m_v^{(k)} = \sum_m \Phi_m^{(k)}(\text{AGG}_m(\cdot))\);(3) 时间感知注意力变体:加入时间差分 \(\Delta t\) 和边类型嵌入的注意力聚合。邻域采样器在训练和推理时使用相同的 \((T, K)\) 约束。实践中浅层(\(L \in \{2,3\}\))加适度扇出即可
    • 设计动机:归纳式学习支持持续增长的图(新会话不断加入)。邻域采样使得 mini-batch 训练可行,且与推理时一致避免偏差。关系/注意力变体理论上更强但实验显示同质版本已足够

损失函数 / 训练策略

加权二元交叉熵损失应对极端类别不平衡。决策阈值根据目标摩擦包络校准。时间序列划分:8 个月训练、2 个月验证、5 个月测试(无重叠),数值特征仅用训练集统计量标准化。使用 PyTorch Geometric 的 NeighborLoader 进行高效的核外邻域采样。

实验关键数据

主实验

模型 AUC Overall AUC Segment 1 AUC Segment 2
XGBoost 79.83 78.88 82.45
GNN(无标签传播) 82.27 (+3.06%) 81.59 (+3.43%) 83.82 (+1.66%)
GNN + 标签传播 84.46 (+5.8%) 83.92 (+6.38%) 85.45 (+3.63%)

消融实验

配置 关键发现
K: 1→10 AUC 随最近邻数增加稳步提升,更多历史会话有益
T: 1→120 天 AUC 随时间窗口扩大一致提升,更长时序上下文有价值
GNN vs GNN+LP 标签传播贡献 +2.2% AUC,是最大的单项提升
关系/注意力变体 vs 同质 额外架构复杂度带来的收益有限,大部分增益来自图结构本身

关键发现

  • 标签传播是最大功臣:GNN 本身比 XGBoost 提升 +3.06%,加上标签传播再提 +2.8%,总提升 +5.8%。这说明"上游邻居是否曾被标记为欺诈"是极强的信号
  • 简单架构即足够:同质 GraphSAGE + 标签传播已达到最优,关系/注意力变体未带来显著额外收益。增益主要来自图结构建模而非更复杂的 GNN 架构
  • 超参数分析直觉一致:更大的 \(K\)\(T\) 都带来持续提升,说明更多历史上下文和更多关联会话都是有价值的
  • 生产部署实现超过 50% 的用户摩擦降低——在提升欺诈捕获的同时大幅减少对合法用户的干扰

亮点与洞察

  • 图结构重构带来的提升远大于模型架构升级:多年来 DNN/RNN/Transformer 都没有超过 XGBoost,但一旦把问题建模为图结构,简单的 GraphSAGE 就实现了显著突破。这说明在关系数据上,正确的数据表示比模型复杂度更重要
  • 延迟感知标签传播设计精巧:通过 \(\tau_u \leq t_v\) 条件严格保证训练-推理一致,同时 4 个简单聚合统计就编码了"欺诈链路"信号。这种简洁但无泄露的特征设计适用于任何有延迟标签的在线系统
  • 工业级可行性:在 1 亿节点、10 亿边的图上实现了可部署的延迟约束内推理,证明 GNN 在真实金融系统中是可行的

局限与展望

  • 仅为 Workshop 论文:实验部分相对简略,缺少更多消融细节(如不同 GNN 变体的性能对比表、标签传播特征的单独消融)
  • 数据保密:由于数据敏感性,未报告数据集的描述性统计,也无法复现实验
  • 静态图假设:虽使用 NeighborLoader 处理增长图,但未讨论图结构的时间漂移(concept drift)及模型更新策略
  • 单产品线评估:仅在 Capital One 一个数字产品的两个 Segment 上验证,泛化性有待更多产品线和机构验证
  • 未与其他图欺诈检测方法对比:如 temporal GNN(TGAT、TGN)或异构图方法(HGT),仅与 XGBoost baseline 比较

相关工作与启发

  • vs XGBoost 表格方法:XGBoost 逐行独立评分无法捕获关系结构,但仍是工业界基线。本文通过图结构补充了 XGBoost 缺失的跨会话关联
  • vs TGN/TGAT 等时序图方法:这些方法更通用但未针对欺诈检测的延迟标签和极端不平衡问题设计。ATLAS 的延迟感知标签传播是针对金融场景的重要创新
  • vs GCN/GAT:本文选择 GraphSAGE 主要因为其归纳学习能力和 mini-batch 采样支持,适合持续增长的大规模图
  • 启发:延迟标签传播的思路可迁移到任何具有延迟反馈的在线系统(如广告欺诈、评论造假),图结构重构的方法论也可应用于其他结构化的异常检测场景

评分

  • 新颖性: ⭐⭐⭐ 时空有向图建模和延迟标签传播思路清晰实用,但 GraphSAGE 本身非新方法
  • 实验充分度: ⭐⭐⭐ 大规模真实数据验证有说服力,但缺与其他图方法对比,消融细节不足
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,公式化严谨,图构建和标签传播的描述精确
  • 价值: ⭐⭐⭐⭐ 工业级 GNN 部署案例具有很高的实践参考价值,50%+ 摩擦降低是显著的业务影响