跳转至

ConTextTab: 语义感知的表格上下文学习器

会议: NeurIPS 2025
arXiv: 2506.10707
代码: SAP-samples/sap-rpt-1-oss
领域: 表格学习/上下文学习
关键词: 表格学习, 上下文学习, 语义编码, 基础模型, 零样本预测

一句话总结

ConTextTab 将语义嵌入(列名、分类值的文本编码)融入 table-native ICL 架构,并在大规模真实表格数据(T4, ~2.18M 表)上预训练,在语义丰富的 CARTE 基准上取得新 SOTA,同时在非语义基准上保持与现有方法竞争力。

研究背景与动机

  • 表格 ICL 现状: TabPFN 和 TabICL 等 table-native ICL 方法在中小规模表格预测中表现优异,但完全依赖合成数据训练,无法利用真实数据中列名、分类标签等语义信息
  • LLM 路线局限: TabuLa-8B 等基于预训练 LLM 的方法拥有深度语义理解,但文本序列化导致 token 效率低(最多仅 32 行上下文),且丧失了表格 2D 结构
  • 核心矛盾: table-native 方法高效但无语义 vs LLM 方法有语义但低效
  • 本文目标: 融合两者优势——在 table-native ICL 框架中注入语义理解能力,使用真实世界数据训练

方法详解

整体框架

ConTextTab 基于 TabPFN 架构进行改进,核心思路:多模态嵌入层 → 交替注意力骨干 → 任务特定输出头。输入表格的各列按数据类型(文本/日期/数值)使用专门的编码器,列名作为"位置编码"通过文本嵌入注入,整体保持行列置换等变性。

关键设计

  1. 多模态语义特征编码:

    • 文本/分类列: 使用预训练文本嵌入模型(默认 all-MiniLM-L6-v2)将每个单元格编码为向量,再通过可学习线性层映射到目标维度 \(d\);分类列也走此路径,保留标签语义
    • 日期列: 将 day/month/year 三个数字分别嵌入后求和,兼顾相对大小和特殊日期(如节假日)识别
    • 数值列: 先按 2%-98% 分位裁剪,再标准化到零均值单位方差(由 Chebyshev 不等式保证值域 \((-7.1, 7.1)\)),乘以可学习向量加偏置;NaN 用 0 替代,偏置起"is-NaN"标志作用
    • 列名: 同样用文本嵌入模型编码,通过独立线性层映射后与单元格嵌入相加
    • 所有嵌入经 LayerNorm 后送入骨干,完全保持行列置换等变性
  2. 交替注意力骨干与权重共享:

    • 沿用 TabPFN 的交替"水平"(跨列)和"垂直"(跨行)自注意力结构
    • 跨列注意力无掩码,跨行注意力带因果掩码(query 行仅关注上下文)
    • 默认启用权重共享:同一 transformer block 在所有层间共享参数,可解释为"按深度展开的 RNN",参数量从 172M 降至 16M 可训练参数,实验发现性能无损
  3. 大规模真实数据训练策略:

    • 使用 T4 数据集,过滤后保留 2.18M 张表(中位数 750 行 × 9 列)
    • 随机抽取 1000 行,50-900 行作 query,其余作 context
    • 随机选一列作目标(排除日期列、>50% NaN 的数值列、>20% 唯一值的列)
    • 上采样非数值列使回归/分类任务比例大致平衡
    • 可选课程学习:第二阶段使用 TabDPT 数据(123 张表,中位数 11k 行 × 34 列),将训练行数增至 4000

损失函数 / 训练策略

  • 分类: 标准交叉熵损失 + MLP 输出头
  • 回归: L2 损失,预测裁剪标准化后的浮点值,推理时反变换
  • 替代方案 - 监督聚类头: 对 query-context 行对计算余弦相似度,与同类/异类邻接矩阵做逐元素二元交叉熵损失,无类别数上限
  • 替代方案 - 软分箱: 数值按分位数分箱做"软编码"(相邻 bin 的线性插值),回归转分类,预测时用概率加权均值
  • 训练: AdamW, lr=\(10^{-4}\), 线性 warmup 1000 步, 梯度累积到 batch=256, 梯度裁剪, 4-10M 步(2-5 epochs)
  • 推理: 8-fold bagging(8 次有放回采样 context),默认 context 大小 \(c=8192\), 最多 500 列

实验关键数据

主实验

评估覆盖 91 个回归 + 112 个分类任务,数据集规模从 400 到 ~400k 训练样本,5 到 3k 列。

基准 ConTextTab 表现 关键对比
CARTE(语义丰富) 新 SOTA,所有样本量下一致最优 显著优于 TabPFN/TabICL/TabDPT(\(p<0.05\)
OpenML-CC18(分类) 竞争力表现 与最佳模型无显著差异
TALENT-Tiny(混合) 竞争力表现 与最佳模型无显著差异
TabReD(大规模) 竞争力表现 调参树模型在大数据集有优势
OpenML-CTR23(回归) 稍弱 与调参集成树无显著差异

消融实验

消融项 发现
训练数据规模 对模型性能至关重要,数据量是关键因素
权重共享 启用后参数从 172M→16M,性能不受影响
文本嵌入模型选择 all-MiniLM-L6-v2 在速度-精度上取得良好平衡
ISAB 注意力 用于前 \(m=3\) 层跨行注意力,降低大表推理开销
课程学习 第二阶段用大表数据可进一步提升

关键发现

  • 语义理解决定性差距: 在 CARTE 上,TabPFN(无语义)甚至不如未调参的梯度提升树,而 ConTextTab 超越了所有单模型方法
  • 低数据优势显著: 在 CARTE 子采样实验中(128 行到全量),ConTextTab 在 ≤2048 行时超过 AutoGluon
  • 非语义场景持平: 在 OpenML-CC18、TALENT-Tiny 等传统基准上与 TabPFN、调参树保持竞争力,差距不显著
  • 大规模数据集挑战: 调参树在大数据集(如 TabReD)上仍有优势,甚至部分超过 AutoGluon,说明 ICL 方法在大 context 扩展上还有空间

亮点与洞察

  • 方法论贡献明确: 首次在 table-native ICL 中系统集成语义嵌入并用真实数据训练,思路简洁且有效
  • 权重共享的惊人发现: 172M → 16M 参数无性能损失,暗示表格 ICL 的有效参数空间可能远小于参数总量
  • 行列置换等变性: 语义编码天然保持此性质,减少了 TabPFN 中 bagging 的必要性(如类别到 ID 映射的随机性)
  • 监督聚类头设计精巧: 用余弦相似度 + 邻接矩阵做分类,无类别数限制且保留标签语义,是对传统交叉熵头的优雅替代
  • 训练效率合理: 单张 H100 GPU, ~10 tables/s, 全训练 4-12 天

局限与展望

  • 非语义场景无突破: 在传统数值表格基准上仅"持平"而非超越,需要更好的数值编码或更大模型
  • 大规模数据集瓶颈: ICL 方法在数十万样本的大数据集上仍落后于调参集成树,context 扩展是关键瓶颈
  • AutoGluon 仍有优势: 作为多模型集成方案,AutoGluon 总体仍优于单模型,说明单模型上限还有空间
  • 文本嵌入模型固定: 使用轻量 MiniLM 可能在复杂语义场景丢失信息,可探索更强的嵌入模型或端到端训练
  • 推理成本: 8-fold bagging + 8192 context 的推理开销不小,实际部署需权衡

相关工作与启发

  • TabPFN / TabICL: table-native ICL 基线,合成数据训练,本文在其架构上扩展语义能力
  • TabuLa-8B: LLM-based ICL,策展了 T4 数据集(本文复用),但受限于 32 行 context
  • CARTE: 语义丰富的表格预训练方法,但需任务特定微调;其基准是本文主要亮点所在
  • TabDPT: 用真实数据训练 + 检索式 context 选择,启发了本文的课程学习策略
  • 启发: 语义信息在表格学习中被严重低估,仅靠注入文本嵌入就能在语义丰富场景产生决定性优势;同时暗示未来表格基础模型应朝多模态融合方向发展

评分

维度 分数 (1-10) 说明
创新性 7 首次将语义嵌入系统融入 table-native ICL 并用真实数据训练,但各组件均非全新
技术深度 8 多模态编码设计细致,监督聚类头和 ISAB 等替代架构展示了深入思考
实验充分度 9 5 大基准、203 个数据集、大量基线对比、消融分析、子采样实验,非常全面
写作质量 8 结构清晰,motivation 阐述充分,方法描述详尽
实用价值 7 开源代码+模型,在语义丰富场景实用价值高,但非语义场景优势不明显
总分 7.8 扎实的系统性工作,在语义表格学习方向树立了新标杆