跳转至

GraphFaaS: Serverless GNN Inference for Burst-Resilient, Real-Time Intrusion Detection

会议: NeurIPS 2025
arXiv: 2511.10554
代码: 无
领域: 图神经网络 / 系统
关键词: GNN 推理, Serverless, 入侵检测, 突发负载, 图分区

一句话总结

提出 GraphFaaS,一种专为 GNN 入侵检测设计的 Serverless 推理架构,通过来源图的增量构建、特征长度感知的并行节点嵌入和贪心 best-fit 子图分区,将平均检测延迟从 14.16 秒降至 2.1 秒(6.7 倍),变异系数从 1.46 降至 0.52(64% 降低),在突发负载下保持稳定低延迟且不损失检测准确率。

研究背景与动机

领域现状:基于来源图(provenance graph)的入侵检测系统(PIDS)是图机器学习在网络安全中的重要应用。系统审计日志被建模为有向无环的来源图——节点代表系统实体(进程、文件、网络套接字),边代表事件(文件读写、进程创建)。GNN 学习正常行为的图模式,推理时检测偏离正常模式的异常节点/图。

现有痛点:GNN 入侵检测面临两个关键需求的矛盾——(1) 必须保持稳定低延迟,因为检测延迟过长会错失攻击响应窗口,导致不可逆后果;(2) 负载高度不规则和突发(工作负载经常出现数量级的突然激增)。传统的静态资源预分配架构无法同时满足两者:为峰值预留资源造成浪费,为低谷配置则峰值时延迟飙升。

核心矛盾:静态资源分配 vs 动态突发负载。入侵检测的工作负载天生不平衡——恶意活动仅占网络行为的极小部分,导致检测负载呈高度间歇性和不可预测的峰值模式。图的大小也在攻击期间剧烈波动。

本文目标 如何在面对高度突发性负载时,保持 GNN 入侵检测的低延迟和低延迟方差?

切入角度:利用 Serverless(无服务器)计算的弹性伸缩能力——按需分配资源、按用量计费、自动扩缩容。将 GNN 推理的两个阶段(节点嵌入和消息传递)拆分为可并行的细粒度执行单元,由 Serverless 平台自动调节并行度。

核心 idea:将 GNN 入侵检测推理流水线适配到 Serverless 架构,通过增量图构建、并行节点嵌入和自适应图分区实现突发负载下的稳定低延迟。

方法详解

整体框架

GraphFaaS 由三个主要组件组成:(1) 增量图构建——利用时间局部性避免重复计算;(2) Serverless 节点嵌入——将文本属性转换为向量的并行化;(3) Serverless GNN 推理——子图分区后并行执行 GNN 消息传递。三个组件均部署在 OpenFaaS Serverless 平台上,根据负载自动扩缩容。

关键设计

  1. 增量图构建与日志过滤:

    • 功能:避免每个检测周期重新处理整张来源图,大幅减少不必要的计算
    • 核心思路:利用两个检测间隔之间来源图的大部分结构不变这一时间局部性,仅处理变化的部分。两阶段过滤:(1) 结构近邻过滤——仅保留活跃节点 2K-hop 距离内的节点(K 为 GNN 层数),因为只有这些节点在消息传递中会被使用;(2) 频率过滤——去除训练数据中高频出现的边和节点(常见模式通常无异常),保留低频罕见模式。过滤后的子图拆分为并行子任务
    • 设计动机:来源图可以非常大,但大部分结构在短期内保持静态。增量处理将计算量从全图缩减到仅变化部分,是 Serverless 弹性伸缩的前提
  2. 特征长度感知的 Serverless 节点嵌入:

    • 功能:将每个节点的文本属性(进程名、文件路径、IP 地址等)转换为数值向量,作为 GNN 的初始表示
    • 核心思路:节点嵌入是天然可并行的(每个节点独立),实现为 Serverless 函数。关键创新是按特征长度分组——短字符串(如 IP 地址)批量打包到同一执行单元以减少并行开销,长字符串(如完整命令行)单独处理以避免超时。这种分组策略确保每个执行单元的处理时间在预设阈值以内,同时避免过度碎片化带来的网络传输和包处理开销。Serverless 平台根据执行单元数量自动扩缩容
    • 设计动机:word2vec/doc2vec 等嵌入方法的执行时间与字符串长度正相关,统一分批会导致长字符串拖慢整批;按长度分组实现了负载均衡
  3. 贪心 Best-Fit 子图分区 + 垂直扩展后备:

    • 功能:将大图分区为大小均衡的子图,使每个 Serverless 函数实例能在延迟阈值内完成 GNN 推理
    • 核心思路:推理延迟主要由图大小决定(模型固定)。贪心 best-fit 算法类似装箱问题——将节点的 K-hop 邻域按边数降序排列,贪心地放入剩余容量最匹配的"箱"中,同时合并重叠区域以减少总分区数。当最小子图(单个中心节点的 K-hop 邻域)仍超过预设阈值时(来源图的依赖爆炸问题),触发垂直扩展——为该 Serverless 实例分配更多 CPU 和内存,而不是继续拆分
    • 设计动机:来源图中"超级节点"(如系统级进程)的邻域可能极其庞大,水平分区无法解决。垂直扩展作为后备机制处理这些极端情况

损失函数 / 训练策略

GraphFaaS 不改变底层 GNN 的训练过程——它是一个推理架构优化。底层 GNN 模型(如 Flash PIDS)使用标准训练流程,GraphFaaS 仅在推理阶段对计算进行并行化和弹性调度。

实验关键数据

主实验

在 DARPA TC Engagement 3 数据集(11 天审计日志,4 次攻击)上评估:

指标 GraphFaaS Flash (Baseline) 改善
平均检测延迟 2.10s 14.16s 6.7× 降低
标准差 1.09 4498.92 4128× 降低
变异系数 (CV) 0.52 1.46 64% 降低
检测准确率 与 Flash 相同 - 无损失
最大延迟尖峰 <10s 远超 10s 显著改善

消融实验

组件 效果 说明
增量图构建 避免全图重处理 利用时间局部性减少计算量
特征长度感知分组 平衡嵌入延迟 避免长字符串拖慢整批
Best-fit 分区 最小化分区数 减少资源浪费同时保证延迟
垂直扩展后备 处理超级节点 避免依赖爆炸导致的延迟尖峰

关键发现

  • 延迟稳定性是最大的改善:标准差从 4498.92 降至 1.09,说明 Serverless 的弹性伸缩有效消除了突发负载带来的延迟波动
  • 检测准确率完全不变:GraphFaaS 仅优化推理架构,不改变底层模型,因此检测结果与原始 Flash 完全一致
  • 偶发延迟尖峰仍存在但可控:虽然仍有小幅尖峰(来自超级节点的垂直扩展),但最大延迟不超过 10 秒,远好于 baseline 的数千秒级别

亮点与洞察

  • 将 Serverless 引入 GNN 推理是一个自然但被忽视的方向:入侵检测的突发性负载与 Serverless 的弹性伸缩天然契合。这个架构层面的创新不需要改变任何模型设计,却带来了数量级的延迟改善
  • 特征长度感知的分组策略巧妙:在并行粒度和通信开销之间找到了平衡点——太细粒度的并行化会被通信开销淹没,太粗粒度则无法利用弹性伸缩。按字符串长度分组是一个简单但有效的启发式
  • 贪心 best-fit + 垂直扩展的混合策略:水平分区处理常规情况,垂直扩展兜底极端情况(依赖爆炸),这种分层策略思路可迁移到其他图推理系统

局限与展望

  • 仅为初步结果:论文明确标注"Preliminary Results",实验仅在一个数据集(DARPA TC)上验证,且只与 Flash 一个 baseline 对比
  • 依赖爆炸问题未根本解决:超级节点的垂直扩展只是权宜之计——单个 Serverless 实例的资源有上限(如 AWS Lambda 的 10GB 内存限制),极端情况下仍可能超时
  • GNN 层数固定:攻击期间来源图规模剧烈波动,固定层数的 GNN 无法动态调整感受野。论文提到动态调节 GNN 层数作为未来方向但未实现
  • Serverless 冷启动延迟未讨论:Serverless 函数的冷启动(首次调用时创建实例)通常有数百毫秒到数秒延迟,这对实时检测可能是问题
  • 未评估不同 Serverless 平台的差异:仅在 OpenFaaS 上实验,未讨论 AWS Lambda、Google Cloud Functions 等商业平台的适用性
  • 成本分析缺失:Serverless 按调用计费,突发负载下的成本可能问题未讨论

相关工作与启发

  • vs Flash / Kairos 等传统 PIDS:这些系统使用静态资源分配的 GNN 推理,在稳定负载下工作良好但在突发负载下延迟飙升。GraphFaaS 通过 Serverless 化解决了弹性伸缩问题
  • vs λGrapher:λGrapher 也探索了 Serverless GNN serving,但侧重于利用请求级图局部性和细粒度资源控制,未专门针对入侵检测的突发负载特性
  • vs Dorylus:Dorylus 用 Serverless 做 GNN 训练(非推理),关注训练成本效率而非推理延迟
  • vs GNNAdvisor:GNNAdvisor 优化 GPU 利用率但假设静态资源,无法处理弹性伸缩需求
  • 启发:Serverless 架构可推广到其他需要应对突发负载的 ML 推理场景(如实时推荐、异常检测),关键是找到合适的任务分解粒度

评分

  • 新颖性: ⭐⭐⭐⭐ 将 Serverless 适配到 GNN 入侵检测推理的思路新颖且实用,特征长度感知分组和混合扩展策略有创意
  • 实验充分度: ⭐⭐⭐ 初步结果在单一数据集上验证了可行性,但缺乏与更多 baseline 和平台的对比
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,架构描述详细,三个组件的设计动机交代充分
  • 价值: ⭐⭐⭐⭐ 架构层面的创新对实际部署 GNN 入侵检测有直接指导意义,6.7 倍延迟降低的工程价值显著