Relational Transformer: Toward Zero-Shot Foundation Models for Relational Data¶

会议: ICLR 2026
arXiv: 2510.06377
代码: snap-stanford/relational-transformer
领域: 关系数据建模 / 基础模型
关键词: 关系数据库, 零样本学习, Transformer, 基础模型, 关系注意力

一句话总结¶

提出 Relational Transformer (RT) 架构，通过 task table prompting、cell tokenization 和 Relational Attention 机制，在多个关系数据库上预训练后可零样本迁移到未见过的数据集和任务，22M 参数模型零样本 AUROC 达到全监督方法的 93%，远超 27B LLM 的 84%。

研究背景与动机¶

预训练 Transformer 在序列建模任务中已能通过零样本提示轻松适应新任务，但关系数据领域至今缺乏能跨数据集和任务迁移的架构。核心挑战在于关系数据的多样性：不同的异构 schema、图结构和函数依赖关系使得设计通用架构极为困难。现有方法通常针对单一数据集训练，无法在未见过的数据库上直接应用。大语言模型虽具备一定泛化能力，但对结构化关系数据的理解不足（27B LLM 仅达 84% AUROC）。本文的核心思路是：像文本领域的 foundation model 一样，为关系数据构建可预训练、可零样本迁移的通用架构。

方法详解¶

整体框架¶

RT 的输入是一个关系数据库（包含多张表、主键-外键链接），以及一个以"task table"形式指定的下游任务。模型通过 cell tokenization 将表中每个单元格转化为 token，利用 Relational Attention 在列、行、主外键链接三个维度上建模关系，最终输出预测结果。

关键设计¶

Task Table Prompting: 类似于 NLP 中的 prompt 设计，RT 通过"task table"来指定下游任务。具体而言，task table 包含待预测实体的 ID 和待填充的目标列，模型需根据数据库中的上下文信息填充目标列。这种设计使得同一个预训练模型可以零样本应用于不同的预测任务（如用户流失预测、销售预测等），无需任务特定的微调或检索上下文示例。
Cell Tokenization with Metadata: RT 不是简单地将表格行序列化为文本，而是将每个单元格作为独立 token，并附加 table/column 元数据信息。这种 tokenization 方式保留了关系数据的结构化特性，让模型能感知到数据来自哪张表的哪一列。相比于直接用 LLM 处理序列化文本，这种设计更高效地利用了关系数据的结构信息。
Relational Attention: 这是 RT 的核心创新。传统 Transformer 的注意力是在一维序列上计算的，而 RT 设计了三种注意力模式：
- 列注意力 (Column Attention): 在同一列的不同行之间计算注意力，学习列内的统计模式和分布特征
- 行注意力 (Row Attention): 在同一行的不同列之间计算注意力，捕获同一实体的属性间关系
- 主外键链接注意力 (Primary-Foreign Key Attention): 沿数据库的主外键链接传播信息，建模跨表实体间的关系

这三种注意力共同使得 RT 能够在关系数据库的复杂结构上进行有效的信息传播和特征学习。

Masked Token Prediction 预训练: RT 采用掩码 token 预测作为预训练目标，类似于 BERT 的 MLM，但应用于关系数据的 cell token。通过在多个异构的 RelBench 数据集上预训练（涵盖客户流失、销售预测等任务），模型学习到关系数据的通用特征表示。

训练策略¶

预训练: 在 RelBench 的多个数据集上进行联合预训练，采用 leave-one-out 策略（留出目标数据集）
Continued Pretraining: 在目标数据集上进行继续预训练（留出目标任务）
Fine-tuning: 在目标任务上微调，展现高样本效率
模型参数量仅 22M，远小于对比的 27B LLM

实验关键数据¶

主实验¶

方法	指标	零样本结果	说明
RT (22M, 零样本)	Binary AUROC	93% of 全监督	单次前向传播
27B LLM (零样本)	Binary AUROC	84% of 全监督	远大模型仍不及 RT
RT (微调)	Binary AUROC	SOTA	高样本效率

关键发现¶

RT 零样本性能平均达到全监督 AUROC 的 93%，仅需单次前向传播
相比 27B 参数的 LLM，22M 参数的 RT 在零样本设置下高出 9 个百分点
微调后达到 SOTA，且具有很高的样本效率
消融分析表明 RT 的零样本迁移依赖于任务上下文、关系注意力模式和 schema 语义信息的共同作用

消融实验¶

配置	说明
无 Relational Attention	性能显著下降，证明关系注意力的重要性
无 Task Table Prompting	无法进行零样本推断
无 Metadata	cell token 缺乏结构信息，性能下降
预训练数据集数量	更多数据集带来更好的泛化

亮点与洞察¶

架构设计精妙: Relational Attention 从列、行、主外键三个维度建模关系，完美契合关系数据库的结构特性
效率惊人: 22M 参数的小模型在零样本设置下远超 27B 的 LLM，说明针对数据特性设计的归纳偏置比暴力扩大参数更有效
Task Table Prompting 是关键创新: 将任务本身也编码为表格形式，使得模型无需额外的任务头或微调即可执行不同任务
开启了关系数据的基础模型时代: 类似于 GPT 之于文本、ViT 之于图像，RT 为关系数据领域提供了第一个有效的基础模型框架

局限与展望¶

预训练数据集主要来自 RelBench，领域覆盖有限，尚需更多异构数据源验证泛化性
零样本性能虽好但与全监督仍有 ~7% 差距，few-shot 设置有进一步提升空间
当前仅在二分类任务上展示零样本结果，回归和多分类任务需要更多探索
对极复杂 schema（数十张表、复杂多对多关系）的扩展性有待验证
后续工作 PluRel 通过合成数据进一步改进了预训练和架构

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐