RDB2G-Bench: A Comprehensive Benchmark for Automatic Graph Modeling of Relational Databases¶

会议: NeurIPS 2025
arXiv: 2506.01360
代码: github.com/chlehdwon/RDB2G-Bench
领域: LLM评测
关键词: 关系数据库, 图建模, benchmark, 图神经网络, 自动建模

一句话总结¶

本文提出 RDB2G-Bench——首个评估关系数据库到图建模方法的基准框架，包含 5 个真实 RDB、12 个预测任务和约 5 万个预计算的图模型-性能对，并对 10 种自动图建模方法进行了系统比较。

研究背景与动机¶

关系数据库（RDB）在金融、医疗、电商等领域广泛使用。近年来，基于图的机器学习方法（将 RDB 表的行建模为节点、外键关系建模为边，然后应用 GNN）在 RDB 上的预测任务中展现了优势。

然而，RDB 到图的建模方式存在巨大的设计空间： - 表的行可以建模为节点或边 - 可以选择性地包含/排除某些表和外键关系 - 不同的建模选择导致 GNN 性能差异巨大（最高可达 10%）

现有研究大多使用固定的启发式规则（如将所有行建模为节点），但这种方法并非最优。自动探索最优图建模的研究面临一个根本障碍：评估成本极高——每评估一个图模型都需要训练一个 GNN。

本文的核心动机是构建一个预计算的基准数据集，使研究者无需反复训练 GNN 即可评估图建模策略，从而加速该方向的研究。

方法详解¶

整体框架¶

RDB2G-Bench 的构建和使用流程： 1. 图模型设计空间定义：选择哪些表和外键（Step 1）+ 如何表示行（节点/边）（Step 2） 2. 图模型生成：基于约束条件枚举合法的图模型 3. 性能指标收集：对每个图模型训练 GNN，收集训练/验证/测试性能、运行时间和参数量 4. 基准评估：10 种建模方法在预计算数据集上的快速评估

关键设计¶

图模型空间的约束条件

合法的图模型必须满足： 1. 必须包含任务表（预测任务定义所在的表） 2. 所有选中的表必须通过路径连接到任务表（路径长度不超过 GNN 层数） 3. 将行建模为边的表必须恰好有 2 个外键，且其主键不被其他表引用

十种自动建模方法

分为三类：

启发式方法： - Random：随机采样图模型，选最好的 - AR2N（All-Rows-to-Nodes）：将所有行建模为节点，包含所有表和外键——最常用的基线

基于动作的搜索算法（4 种动作：add/remove FK边、row→edge/edge→row）： - Greedy Forward (GF)：从任务表出发贪心添加 - Greedy Backward (GB)：从完整图出发贪心删减 - Greedy Local (GL)：从随机图出发贪心搜索 - Evolutionary Algorithm (EA)：进化策略 - Bayesian Optimization (BO)：BANANAS 算法 - Reinforcement Learning (RL)：基于 RNN 的策略梯度

LLM 方法： - LLM：用 Claude Sonnet-3.5 直接生成动作序列 - LLM-CoT：加入 Chain-of-Thought 提示设计

损失函数 / 训练策略¶

GNN 使用 Heterogeneous GraphSAGE（分类/回归任务）和 ID-GNN（推荐任务）。训练协议遵循 RelBench，固定 epoch 为 20，仅调学习率。每个实验重复 5-15 次以确保可靠性。

实验关键数据¶

主实验¶

数据集概览（图 2a）

RDB	任务名	任务类型	表数	图模型数	最优	AR2N	最差
rel-avito	user-clicks	分类(AUC%)	8	944	67.93	64.66	60.89
rel-avito	user-visits	分类(AUC%)	8	944	66.33	65.97	59.83
rel-avito	ad-ctr	回归(MAE↓)	8	1304	0.039	0.040	0.044
rel-event	user-repeat	分类(AUC%)	5	214	82.29	77.65	63.96
rel-event	user-ignore	分类(AUC%)	5	214	82.82	82.22	74.29
rel-f1	driver-dnf	分类(AUC%)	9	722	74.56	73.14	67.40
rel-f1	driver-top3	分类(AUC%)	9	722	81.88	78.11	75.37
rel-f1	driver-position	回归(MAE↓)	9	722	3.831	3.913	4.171
rel-stack	post-related	推荐(MAP%)	7	7979	12.04	10.82	0.006
rel-trial	study-outcome	分类(AUC%)	15	36863	70.91	68.09	62.85

十种方法在 rel-f1 上的表现（表 1，driver-top3 任务 AUC-ROC%）

方法	Budget 1%	2%	3%	5%
Best	81.88	81.88	81.88	81.88
AR2N	78.11	78.11	78.11	78.11
GF	81.88	81.88	81.88	81.88
GB	80.15	80.56	80.56	80.56
BO	79.42	79.80	80.13	80.35
RL	79.04	79.39	79.44	80.08
LLM	80.34	80.54	80.54	80.61
Random	79.63	80.17	80.43	80.60

消融实验¶

五个关键观察

观察	核心发现
Obs 1	最优图模型比 AR2N 提升最高 10%，且通常更小更快
Obs 2	将行建模为边（Row2Edge）的效果因任务而异，同一 RDB 上不同任务可能得出相反结论
Obs 3	高性能图模型共享公共子结构（如特定外键关系和边建模策略）
Obs 4	不同任务需要不同图模型，跨任务 Spearman 相关通常 < 0.4
Obs 5	图模型的有效性跨 GNN 架构泛化良好（Spearman 相关 > 0.7-0.8）

效率增益

评估方式	总时间	加速比
On-the-fly（每次训练 GNN）	850+ 小时	1×
RDB2G-Bench（预计算查询）	2.20 小时	389×

关键发现¶

"更多数据不一定更好"：包含所有表和外键（AR2N）通常不是最优策略。选择性地使用更少但更相关的表能带来更好的性能和效率。
Greedy Forward 在小预算下表现最优：在 rel-f1 的 driver-top3 任务上仅用 1% budget 就找到了全局最优（81.88%）。
复杂方法（RL、EA）在小预算下不稳定：需要更多探索才能收敛。
LLM 方法短期推理能力强但长期规划弱：初始迭代快速提升，但随 budget 增加收益有限。
简单方法（Greedy + Random）与复杂方法表现相当：说明该领域有很大的改进空间。

亮点与洞察¶

首创性：第一个专门评估 RDB-to-graph 建模策略的基准，填补了重要空白。
实用价值极高：389× 的加速使大规模评估成为可能，预计算数据集直接可用。
发现具有实际指导意义：
- 不要盲目使用 AR2N——针对任务选择合适的图建模策略
- Greedy Forward 是实用的默认选择
- 图模型的有效性跨 GNN 泛化，说明图建模比 GNN 选择更重要
系统性的实验设计：5 个真实 RDB × 12 个任务 × 50k 图模型，规模充分。

局限与展望¶

图模型空间仅考虑"节点 vs 边"和"包含 vs 排除"两个维度，未涉及超边建模。
仅使用 RelBench 提供的 5 个 RDB，覆盖的领域和 schema 复杂度有限。
预计算数据集绑定于特定 GNN 架构和训练设置，其他设置下可能需要重新构建。
LLM 方法仅使用 Claude Sonnet-3.5，未与 GPT-4 等其他模型比较。
未探索图模型与下游任务语义之间的理论关系。

评分¶

创新性: ★★★★☆（首个专门评估图建模策略的基准，问题定义新颖）
实验规模: ★★★★★（50k 图模型、12 任务、10 方法、10400 GPU 小时构建）
实用性: ★★★★★（预计算数据集、开源代码、389× 加速）
清晰度: ★★★★☆（结构清晰，5 个观察逐步展开，图表直观）