Understanding the Limits of Deep Tabular Methods with Temporal Shift¶

会议: ICML 2025
arXiv: 2502.20260
代码: 有
领域: 时间序列
关键词: 表格数据, 时间分布偏移, 数据划分策略, 时间嵌入, 傅里叶级数

一句话总结¶

揭示深度表格模型在时间分布偏移下失败的根因——训练滞后与验证偏差导致模型选择失效，以及模型表示丢失周期/趋势信息——并提出改进的时序划分策略和基于傅里叶级数的即插即用时间嵌入方法。

研究背景与动机¶

领域现状：深度表格模型（MLP、Transformer、检索式方法等）在i.i.d.数据上已取得显著进展，部分模型在标准benchmark上甚至超越树模型。TabReD benchmark引入了"时间分布偏移"的概念，强调真实表格数据本质上具有时序性。

核心痛点：当数据存在时间分布偏移（趋势、周期性变化）时，深度表格模型性能严重退化。尤其是在TabReD benchmark上，检索式方法（如TabR、ModernNCA）在时序划分下性能骤降，排名远低于树模型和MLP-PLR。

核心矛盾：TabReD采用时序划分（temporal split）来模拟真实部署场景，但实验发现即使简单的随机划分（random split）也能显著提升性能。这一反直觉的现象表明，问题不仅在于模型架构，更在于训练协议本身。

本文方案：从两个层面系统解决问题：(1) 分析时序划分失效的根因（训练滞后+验证偏差），提出改进的数据划分策略；(2) 发现模型表示中周期和趋势信息的丢失现象，提出基于傅里叶级数的时间嵌入方法。

切入角度：不设计新的模型架构，而是从训练协议和特征工程两个实用角度切入，提出即插即用的通用解决方案。

方法详解¶

整体框架¶

本文的框架分为两部分：改进的数据划分策略（training protocol）和时间嵌入方法（temporal embedding）。两者正交且可叠加使用，适用于任意深度表格模型。

关键设计¶

1. 训练滞后分析与消除¶

功能：分析并解决时序划分中训练集与测试集之间的时间间隔（training lag）问题。

核心思路：在TabReD的原始时序划分中，靠近测试时间 \(T_{\text{train}}\) 的数据被用作验证集而非训练集，导致训练数据与测试数据之间存在时间间隔。但距离测试时间更近的样本通常分布更相似，用于训练比用于验证更有价值。

通过设计对照实验（Figure 3中split (a) vs. (b)），固定验证集和测试集，仅改变训练集的时间滞后，结果表明消除训练滞后带来平均1.62%的性能提升。检索式方法ModernNCA提升最大（2.19%），因为检索方法依赖候选样本的质量，无滞后的候选集更能反映测试时分布。

设计动机：直觉上，距离测试时间越近的数据越具有代表性，应优先用于训练而非仅做验证选择。

2. 验证偏差分析与缓解¶

功能：分析验证集与测试集之间的分布偏移差异（validation bias）对模型选择的影响。

核心思路：在时序划分中，训练-验证的时间间隔远小于训练-测试的时间间隔，导致验证集上的分布偏移程度与实际测试时不匹配。这使得模型选择（early stopping、超参选择）基于一个偏移程度较低的验证集，无法真实反映测试时的挑战。

通过对照实验（split (a) vs. (c)），保持训练集和测试集相同，仅改变验证偏差程度，结果显示减小验证偏差带来平均0.59%的提升。集成方法TabM提升最显著（0.83%），因为集成方法本身对训练数据质量鲁棒（降低方差），但对验证偏差敏感。

设计动机：模型选择高度依赖验证集的代表性，验证集的偏移程度应与实际测试偏移对齐。

3. 验证集时间方向等价性¶

功能：验证在相反时间方向上的数据是否也能作为有效验证集。

核心思路：通过MMD热力图可视化不同时间片的分布距离，发现数据呈现规律性的对角条纹模式，表明等间隔时间片的分布偏移是近似均匀的。这意味着在时间反方向上取与测试集具有相同时间间隔的数据，也可以作为近似等价的验证集。

实验（split (b) vs. (d)）显示，反方向验证集导致0.91%的性能下降，但这远小于消除训练滞后带来的提升（1.62%），说明采用这种策略来最大化数据利用率总体上是有利的。

4. 提出的时序划分策略¶

基于以上三个发现，提出最终的划分策略： - 训练滞后最小化为零（在 \(T_{\text{train}}\) 两侧对称划分） - 验证集取在时间反方向上与测试集具有相同偏移程度的数据 - 实现了与随机划分相当的性能（2.18% vs. 2.17%平均提升），但稳定性大幅优于随机划分（标准差增加16.69% vs. 153.81%）

5. 时间嵌入方法¶

功能：为时间戳设计即插即用的嵌入方法，将时间信息注入模型。

核心思路：通过MMD热力图对比原始数据与模型学习到的表示，发现模型表示中周期性和趋势信息严重丢失。为此设计基于傅里叶级数展开的时间嵌入：

\[\psi(t) = [\text{ReLU}(\text{Linear}(\text{Periodic}(t))), \text{Trend}(t)]\]

其中周期部分为多尺度傅里叶嵌入的拼接：

\[\text{Periodic}(t) = [\text{Fourier}(t, T_1), \ldots, \text{Fourier}(t, T_m)]\]

每个傅里叶嵌入定义为 \(K\) 阶展开：

\[\text{Fourier}(t, T) = [\sin(\frac{2\pi k t}{T}), \cos(\frac{2\pi k t}{T})] \in \mathbb{R}^{2K}, \quad k \in \{1, \ldots, K\}\]

趋势部分为z-score标准化的时间戳：\(\text{Trend}(t) = \text{z-score}(t)\)

设计动机： - 使用预定义周期先验（年、月、周、日）而非可调周期，因为在时间偏移场景下验证集不完全准确，固定先验更稳定（固定周期+0.30% vs. 可调周期-2.20%） - 通过可学习线性层聚合傅里叶系数，ReLU增强稀疏性 - 趋势项捕获线性时间偏移 - 该嵌入隐式实现了自适应：模型可学习不同时间阶段的特定知识，部署后根据当前时间戳自动调整映射 \(f_t = g_t \circ h_t\)

损失函数 / 训练策略¶

使用标准分类/回归损失，无额外损失设计
超参搜索使用Optuna，100次trial（FT-T/TabR为25次）
每组实验15个随机种子取平均
随机划分额外在3个不同随机种子上各跑15次取平均（共45次）
时间嵌入的超参数包括各周期的傅里叶阶数（\(2^1\)到\(2^7\)或0）、趋势开关、嵌入维度

实验关键数据¶

主实验¶

在TabReD benchmark的8个数据集上（3个分类+5个回归）评估：

方法	指标	本文划分 (Avg. Imp.)	随机划分 (Avg. Imp.)	稳定性对比 (Std↓)
MLP	AUC/RMSE	+3.50%	+4.30%	Ours更优
MLP-PLR	AUC/RMSE	+0.75%	+0.73%	Ours更优
FT-Transformer	AUC/RMSE	+2.78%	+3.76%	Ours更优
TabR	AUC/RMSE	+2.20%	+2.00%	Ours更优
ModernNCA	AUC/RMSE	+2.49%	+2.53%	Ours更优
TabM	AUC/RMSE	+1.25%	+1.51%	Ours更优
XGBoost	AUC/RMSE	+2.06%	+1.79%	Ours更优
CatBoost	AUC/RMSE	+2.37%	+2.09%	Ours更优
总平均	-	+2.18%	+2.17%	16.7% vs. 154%

时间嵌入在本文划分基础上的进一步提升：

嵌入方式	MLP	MLP-PLR	ModernNCA	平均
Num（数值）	-0.04%	-0.06%	-0.04%	-0.05%
Time（时间分解）	-0.70%	-0.15%	-0.32%	-0.39%
PLR嵌入	+0.70%	+0.01%	+0.02%	+0.25%
本文时间嵌入	+1.31%	+0.01%	+0.30%	+0.54%

消融实验¶

配置	关键指标 (Avg. Imp.)	说明
消除训练滞后 (b vs. a)	+1.62%	近测试时间数据用于训练更有效
减少验证偏差 (a vs. c)	+0.59%	对齐验证偏移程度改善泛化
反方向验证集 (d vs. b)	-0.91%	损失远小于消除滞后的收益
固定周期 vs. 可调周期	+0.30% vs. -2.20%	固定先验在偏移场景下更可靠
嵌入直接输入backbone vs. 经数值编码	+0.41% vs. +0.30%	时间嵌入与PLR编码存在不兼容

关键发现¶

随机划分并不总优于时序划分：虽然随机划分性能相当，但标准差增加154%，稳定性极差。使用鲁棒性评分（\(RS_k = \mu - k\sigma\)）评估时，本文方法在高惩罚下优势更明显
检索式方法对时间偏移最敏感：ModernNCA从划分改进中获益最大（+2.63%），因为候选集质量直接影响检索效果
模型表示丢失时间信息：MMD热力图显示，MLP学到的表示仅保留粗粒度模式（工作日vs周末），丢失了长周期和趋势信息
时间嵌入恢复时间结构：加入时间嵌入后，模型表示的MMD热力图重新出现与原始数据一致的对角条纹模式
方法对新模型族同样有效：在Mambular（自回归方法）和TabPFN v2（通用表格方法）上也验证了训练协议的有效性

亮点与洞察¶

问题定位精准：不急于设计新模型，而是先系统剖析现有训练协议（数据划分）的失效原因，通过控制变量实验严格分离训练滞后与验证偏差两个因素的影响
验证集方向等价性：发现在时间反方向上的数据可作为近似等价验证集，这一洞察新颖且实用，使得训练集可以充分利用靠近测试时间的数据
表示层可视化分析：通过MMD热力图从表示学习角度揭示时间信息丢失的现象，为时间嵌入的设计提供了直接动机
实用导向的设计理念：时间嵌入使用固定周期先验而非可学习周期，这一选择在时间偏移场景下反而更稳定——因为验证集本身不完全可靠，过度拟合验证集反而有害
即插即用：整体方案（划分策略+时间嵌入）不修改模型架构，可直接应用于任意表格学习方法

局限与展望¶

非均匀采样假设：验证集方向等价性依赖时间偏移在各时间片上近似均匀的假设，当采样分布高度不均匀时（如SH、EO数据集）效果受限
周期先验依赖领域知识：时间嵌入中的周期（年/月/周/日）需要人工指定，对于非标准周期模式的数据可能需要调整
仅针对有显式时间戳的数据：方法要求数据包含时间戳信息，对于隐含时序性但无时间戳的表格数据不适用
未考虑非线性趋势：趋势项仅用z-score线性表示，对于复杂非线性趋势可能捕获不足
与数值编码的兼容性：时间嵌入与PLR等数值编码存在不兼容问题，虽然可通过直接输入backbone缓解，但增加了使用复杂度

评分¶

新颖性: ⭐⭐⭐⭐ 改进的划分策略和时间嵌入均非全新概念，但系统性的分析框架和实验设计令人信服，验证集方向等价性洞察新颖
实验充分度: ⭐⭐⭐⭐⭐ 8个数据集、11+种方法、严格的控制变量实验、15种随机种子、鲁棒性分析，极为充分
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，从问题发现→原因分析→方案设计层层递进，图表精美且信息量大
价值: ⭐⭐⭐⭐ 对表格学习实践有直接指导意义，即插即用方案降低了使用门槛，但局限于有时间戳的表格数据场景