Relatron: Automating Relational Machine Learning over Relational Databases¶

会议: ICLR 2026
arXiv: 2602.22552
代码: https://github.com/amazon-science/Automating-Relational-Machine-Learning
领域: 图学习 / AutoML
关键词: 关系数据库, 图神经网络, 深度特征合成, 架构选择, 同质性

一句话总结¶

系统比较关系深度学习（RDL/GNN）和深度特征合成（DFS）在关系数据库预测任务上的性能，发现两者各有优势且高度任务依赖，提出 Relatron——基于任务嵌入的元选择器，通过 RDB 任务同质性和亲和力嵌入实现自动架构选择，在联合架构-超参搜索中提升达 18.5%。

研究背景与动机¶

领域现状：关系数据库（RDB）上的预测建模有两大路线：DFS（程序化组合聚合原语生成特征表，再用表格学习器）和 RDL（在异构实体-关系图上端到端训练 GNN）。两者都优于关系无关的基线。

现有痛点：两种范式何时更优完全未知。从业者缺乏选择 DFS vs RDL 的原则性指导。验证性能常常是不可靠的选择代理——更多搜索反而导致更差的测试性能（"越调越差"效应）。

核心矛盾：(a) 没有单一架构在所有任务上占优；(b) 验证集选择的配置与测试最优配置之间存在显著差距，尤其在时序分割导致分布偏移时。

本文目标：给定 RDB 任务，自动选择 RDL 还是 DFS，以及具体架构配置。

切入角度：通过大规模架构搜索构建"性能银行"，分析驱动 RDL-DFS 性能差距的因素，发现 RDB 任务同质性和训练规模是关键预测因子。

核心 idea：同质性高 → DFS 线性聚合就够；同质性低 → RDL 的非线性聚合有优势。通过任务嵌入（同质性+亲和力+规模）训练元分类器，实现自动宏观和微观架构选择。

方法详解¶

整体框架¶

Relatron 把"该用 RDL 还是 DFS、用什么配置"这个选择问题，转化成一个由任务嵌入驱动的元分类问题。它先对 RDL 和 DFS 两条路线做大规模架构搜索，把每个任务上各配置的性能存成"性能银行"；再为每个 RDB 任务计算一组可廉价获得的任务嵌入特征——RDB 任务同质性、锚点亲和力（含路径、特征、时序、训练规模四类信号）；接着用这些嵌入训练一个元选择器，先在宏观层做 RDL/DFS 路线选择、再在微观层做具体配置选择；最后在验证性能领先的少数候选里，用 Loss Landscape 几何指标挑出对分布偏移更鲁棒的检查点。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IN["RDB 预测任务<br/>(PK-FK 异构图 + 标签)"] --> SEARCH["大规模架构搜索<br/>RDL + DFS 各配置"]
    SEARCH --> BANK[("性能银行<br/>配置 → 性能")]
    IN --> EMB
    subgraph EMB["任务嵌入（廉价信号）"]
        direction TB
        H["RDB 任务同质性"]
        A["锚点亲和力嵌入<br/>路径 / 特征 / 时序 / 规模"]
    end
    BANK --> META["元选择器<br/>宏观选 RDL/DFS<br/>微观选配置"]
    EMB --> META
    META --> CAND["验证 top 候选"]
    CAND --> LL["Loss Landscape 后选择<br/>挑平坦极小值"]
    LL --> OUT["最终架构 + 配置"]

关键设计¶

1. RDB 任务同质性：用一个标量刻画"标签沿关系是否一致"，从而预判 RDL 还是 DFS 占优

作者的核心观察是：DFS 用的是线性聚合原语，只有当相邻实体的标签倾向一致时才好用；而 RDL 的 GNN 能学非线性聚合，在标签信号互相矛盾时反而能翻转贡献符号。于是需要一个量来衡量任务的这种"一致性"。他们在增强后的异构实体-关系图上定义自循环元路径 \(m\)，把同质性写成沿该元路径相邻预测目标的平均相似度 \(H(\mathcal{G};m) = \frac{1}{|\mathcal{E}_m|}\sum \mathcal{K}(\hat{y}_u, \hat{y}_v)\)，其中分类任务用点积度量、回归任务用 Pearson 相关度量；为了不被类别不平衡误导，还引入调整同质性（adjusted homophily）做校正。这个指标确实抓住了关键规律：调整同质性与 RDL-DFS 性能差距的 Spearman \(\rho = -0.43\)（\(p < 0.05\)），即同质性越低，RDL 相对 DFS 的优势越大——这正是把宏观选择（选路线）建立在同质性上的依据。

2. 锚点亲和力嵌入：在同质性之外补齐路径、特征、时序、规模四类廉价信号，让元选择器看得更全

同质性只反映了消息传递的偏好，不足以决定具体配置，所以作者再叠加一组"锚点亲和力"嵌入，关键是每一项都做到近乎零训练成本。路径亲和力用随机初始化的 GraphSAGE / NBFNet 做单次前向、再拟合一个线性头，借此判断任务更偏好哪类路径模型；特征亲和力直接用 TabPFN 在无需训练的情况下给出验证性能，反映表格特征本身的质量；时序亲和力统计标签随时间的变化量，刻画时序分割下的分布漂移；最后再拼上 \(\log(N_{train})\) 表示训练规模。把这几路信号和同质性串起来，元选择器既能做宏观的 RDL/DFS 选择，也能做微观的配置选择，而代价远低于需要反复训练的传统任务嵌入。

3. Loss Landscape 后选择：在验证领先的候选里，用极小值的平坦度挑出对分布偏移更鲁棒的那个

由于时序分割会带来验证-测试分布偏移，验证性能最高的配置未必测试最好（即"越调越差"）。作者的思路是：验证-测试差距会体现在损失曲面的几何上，越平坦的极小值越抗偏移。于是在验证性能 top 候选中再引入三个曲面指标做后选择——一阶指标 \(P_1\) 取局部最差的有限差分斜率，二阶指标 \(P_2\) 取 Hessian 最大特征值，能量势垒 \(P_{bar}\) 取沿随机射线方向的最大损失隆起；三者都偏好更平坦、更宽的极小值。这一步不改训练，只是把泛化稳健性当作额外的选择准则，挑出更可能在测试集上保持性能的检查点。

损失函数 / 训练策略¶

元分类器在性能银行上以留一法（LOO）训练和评估，输入即上述同质性、亲和力统计与时序特征。整套流程的一大卖点是高效：因为亲和力嵌入都走零训练或单次前向路径，元选择的计算时间约为基于 Fisher 信息矩阵方法（如 Autotransfer）的 1/10。

实验关键数据¶

主实验¶

方法	LOO 准确率 (val选择)	LOO 准确率 (test选择)	平均计算时间
Model-free (ours)	87.5%	79.2%	0.48 min
Training-free model	66.7%	66.7%	5 min
Autotransfer (anchor)	66.7%	66.7%	50 min
Simple heuristic	70.8%	75.0%	0 min

联合 HPO 中 Relatron 比强基线最多提升 18.5%，且计算成本 10× 更低。

消融实验¶

配置	Kendall相关(无g)	Kendall相关(有g)	说明
Model-free	0.066	0.163	最佳任务相似性
Training-free	-0.038	-0.030	负相关
Autotransfer	-0.049	-0.011	昂贵且负相关

关键发现¶

RDL 不总优于 DFS：性能高度任务依赖，两者各有明显优势领域
宏观选择解决了大部分问题：选对 RDL/DFS 后，验证-测试差距显著缩小
同质性是最强预测因子：调整同质性与 RDL-DFS 差距的 Spearman \(\rho = -0.43\)
越调越差效应：更多搜索预算反而可能降低性能——Relatron 的宏观选择有效缓解
验证不可靠：时序分割下验证选择的配置与测试最优差距大

亮点与洞察¶

DFS 的被低估：在合适任务上 DFS 完全可以击败复杂的 GNN，关键是匹配任务属性
同质性驱动 RDL 优势的理论解释：低同质性时线性聚合会混淆正负信号，RDL 可学习关系权重翻转贡献
loss landscape 后选择是实用的泛化指标，可迁移到其他 AutoML 场景

局限与展望¶

任务嵌入相关性整体偏低（Kendall \(\tau\) 最高 0.163），迁移 HPO 效果有限
未纳入基础模型（如 KumoRFM）
性能银行规模有限（< 20 任务），元学习需要更大规模
Loss landscape 指标仅适用于同家族内比较

评分¶

新颖性: ⭐⭐⭐⭐ RDB 任务同质性定义新颖，但方法框架本身是标准元学习
实验充分度: ⭐⭐⭐⭐⭐ 17 任务、大规模架构搜索、性能银行、多层面消融，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，理论分析有深度
价值: ⭐⭐⭐⭐⭐ 解决了 RDB ML 的关键实践痛点，性能银行有长期研究价值