Flatten Graphs as Sequences: Transformers are Scalable Graph Generators¶

会议: NeurIPS 2025
arXiv: 2502.02216
代码: AutoGraph
领域: 图像生成
关键词: graph generation, autoregressive model, Eulerian trail, language model, scalability

一句话总结¶

提出 AutoGraph，通过分段欧拉邻域路径（SENT）将图无损展平为 token 序列，直接用 decoder-only Transformer 建模，实现比扩散模型快 100× 的图生成速度，同时在合成和分子基准上达到 SOTA。

研究动机¶

图生成是药物发现、蛋白质设计、程序合成等的基础任务。现有方法的核心瓶颈：

扩散模型：需要全邻接矩阵操作（\(O(n^2)\) 内存），每步计算谱特征（\(O(n^3)\)），严重限制可扩展性
传统自回归模型（GraphRNN 等）：序列不由 token 组成，需要特殊架构（RNN），无法利用 LLM 的强大能力；且序列前缀不保证是诱导子图，丢失结构信息
图生成领域未能像文本/图像那样受益于 Transformer 和大规模预训练的进步

解决思路¶

本文目标：### 核心概念：分段欧拉邻域路径（SENT）

分段欧拉路径（SET）：将图分解为多段 trail，每条边恰好被访问一次。

方法详解¶

核心概念：分段欧拉邻域路径（SENT）¶

分段欧拉路径（SET）：将图分解为多段 trail，每条边恰好被访问一次。但 SET 的前缀生成的图仅是子图而非诱导子图，丢失结构信息。

分段欧拉邻域路径（SENT）：在 SET 基础上为每个节点附加邻域信息。每个元组 \(w_i = (v_i, A_i)\) 包含节点 \(v_i\) 和邻域集 \(A_i \subseteq V\)。

关键定理：若 SENT \(s\) 是因果（causal）且半哈密顿（semi-hamiltonian）的，则其任意前缀的生成图都是 \(G_s\) 的诱导子图。这建立了图前缀与语言建模中子句的直接对应。

充要条件（Theorem 2.15）¶

SENT \(s\) 在图 \(G\) 中是因果且哈密顿的，当且仅当每个元组 \(w = (v, A_v)\) 满足：

\[A_v = \mathcal{N}_G(v) \cap V_s(w)\]

即邻域集恰好是 \(v\) 的图邻居中已被访问的节点。

采样算法¶

基于随机路径采样（Algorithm 1）： 1. 随机选择起始节点，初始化路径 2. 若当前节点的未访问邻居非空，随机选择一个继续路径 3. 否则断开当前段，随机选择新的未访问节点开始新段 4. 对每个新节点计算其与已访问节点的邻域集

时间和空间复杂度均为 \(\mathcal{O}(m)\)，\(m\) 为边数——最优线性复杂度。

Tokenization¶

重索引：按节点首次出现顺序重新编号，保证排列不变性
特殊 token：/ 表示段间断开，< 和 > 标记邻域集的起止
属性图扩展：节点/边属性以交错方式插入 token 序列

自回归建模¶

标准语言模型目标函数：

\[p(s) = \sum_{i=1}^{n} \log p_\theta(s_i \mid s_1, \ldots, s_{i-1})\]

使用 LLaMA 架构（12 层，hidden dim=768），与 GPT-2 smallest 对齐。推理时使用 top-k 采样。

实验关键数据¶

合成图生成（Planar & SBM）¶

主实验¶

模型	Planar Ratio↓	Planar VUN↑	SBM Ratio↓	SBM VUN↑
DiGress	6.1%	77.5%	1.8	60.0%
GruM	1.8	90.0%	1.5	85.0%
GEEL	9.5%	0.0	7.3%	5.0%
AutoGraph	1.5	87.5%	3.4	92.5%

SBM 数据集上 VUN（Valid+Unique+Novel）最高
仅 AutoGraph 和 GruM 在两个数据集上均达到 VUN≥80

效率对比¶

消融实验¶

模型	推理 (s/graph)	训练 (h)
DiGress	7.53%	5.56%
GRAN	1.25	12.3%
AutoGraph	0.08	1.57

推理速度比扩散模型快 ~100×，训练快 ~3×。

大规模图（Proteins & Point Clouds）¶

模型	Proteins Ratio↓	Point Clouds Ratio↓
GRAN	77.7%	19.1%
DiGress	OOM	OOM
AutoGraph	接近训练集	可扩展到 5000+ 节点

扩散模型在大图上 OOM，AutoGraph 因线性复杂度可扩展。

分子生成¶

在 QM9 和 MOSES 分子基准上均达到 SOTA 或竞争性能，同时支持子结构条件生成（无需微调，类似 prompt）和迁移学习能力。

评分¶

⭐⭐⭐⭐⭐

优点： - 理论优美：SENT 的设计建立了图生成与语言建模的严格对应，前缀 = 诱导子图 - 复杂度最优：序列长度和采样复杂度关于边数线性，远优于扩散模型的二次/三次复杂度 - 实践价值巨大：直接使用现有 LLM 基础设施（LLaMA + HuggingFace）做图生成 - 附带子结构条件生成和迁移学习能力，为图基础模型提供了可行路径 - 100× 推理加速和 3× 训练加速使得大规模图生成变得实际可行

局限： - 随机路径采样引入的序列多样性增加了学习难度，可能需要更多训练数据 - 目前仅在无向图上验证，有向图、超图等需要进一步扩展 - 在极小图（节点<10）上 VUN 可能不如扩散模型 - 价值:

亮点与洞察¶

方法设计简洁有效，核心思路清晰
实验验证全面，消融分析充分
对领域的关键问题提供了新的解决思路

局限与展望¶

方法在特定条件下可能存在局限性，泛化性待进一步验证
计算效率和可扩展性可做进一步优化
与更多相关方法的结合值得探索

研究背景与动机¶

领域现状¶

领域现状：本研究关注的领域近年来取得了显著进展，多种方法被提出解决核心问题。

现有痛点¶

现有痛点：现有方法在效果、效率或泛化性方面存在明显不足，限制了实际应用。

核心矛盾：在性能与效率之间存在根本性权衡，需要在方法论层面进行创新突破。

研究目标¶

本文目标：提出新的方法框架解决上述核心挑战。