Feature-aware Modulation for Learning from Temporal Tabular Data¶

会议: NeurIPS 2025
arXiv: 2512.03678
代码: https://github.com/LAMDA-Tabular/Tabular-Temporal-Modulation
领域: 时间表格学习 / 信号与通信 / 时序分布漂移
关键词: temporal shift, feature modulation, 概念漂移, Yeo-Johnson, 表格深度学习

一句话总结¶

论文认为时间表格学习真正难的不是“再加一个时间 embedding”这么简单，而是很多特征的语义会随时间漂移，因此提出 feature-aware modulation，通过时间上下文动态生成每个特征的偏移、缩放与非线性形状参数，把跨时间的语义重新对齐，最终在 TabReD 上让深度模型第一次在平均排名上稳定压过 GBDT。

研究背景与动机¶

表格学习长期是 GBDT 的天下。

哪怕近年来 FT-Transformer、TabR、TabM、ModernNCA 这类深度模型进步很快，一到真实业务场景里的时间分布漂移，树模型还是常常更稳。

原因在于大多数表格学习方法默认数据满足 i.i.d. 假设。

可在现实里，时间会改变特征和标签的关系。

收入会受通胀影响。

房屋坐标本身不变，但“黄金地段”的含义会随城市发展变化。

用户行为、政策环境、医疗流程、金融风险偏好都会让相同数值在不同年份表达不同意义。

作者把这种现象总结成“特征语义演化”。

更具体地说，特征既有 objective semantics，也有 subjective semantics。

客观语义是数值本身的意义，比如经纬度、绝对工资值。

主观语义则是相对于分布上下文的意义，比如“高收入”“热门地段”“异常高风险”。

真正引发概念漂移的，往往是后者。

这也解释了为什么简单拼接时间 embedding 常常不够。

时间 embedding 是把时间信息直接塞给模型，希望模型自己学会解释变化。

但如果输入特征的语义本身没有先被校正，那么模型很可能把时间模态和输入模态纠缠在一起，导致过拟合短期模式、泛化到未来时失效。

因此作者提出一个更底层的问题。

是否可以不直接让模型记住每个时刻的模式，而是先把不同时间段的特征“翻译”到更一致的语义空间里。

如果可以，那么后续 backbone 就能在一个更稳定的表征空间里学习决策边界。

这就是 feature-aware modulation 的出发点。

方法详解¶

整体框架¶

输入是一个带时间戳的表格样本 \((\mathbf{x}, t)\)。

模型首先用时间编码器得到时间嵌入 \(\psi(t)\)。

然后，一个轻量级 modulator 读取 \(\psi(t)\)，为每个特征维度产生三组参数：

\(\gamma\)，控制缩放。

\(\beta\)，控制平移偏移。

\(\lambda\)，控制非线性形状变化。

接着每个特征 \(x_i\) 经过 Yeo-Johnson 变换与仿射调制，形成新特征

\(\tilde{x}_i = \gamma_i(\psi(t)) \cdot \text{YJ}(x_i; \lambda_i(\psi(t))) + \beta_i(\psi(t))\)。

这些调制后的特征再送入任意 backbone，例如 MLP 或 TabM。

调制不仅能放在输入层，也可以作用在中间表示层和输出 logits 层。

整套设计的要点是：时间不再作为一个并列输入特征和原始特征硬拼，而是作为“解释特征该如何被理解”的条件信号。

关键设计¶

从“时间建模”转向“语义对齐”
- 功能：把时间漂移问题转写成表示空间中的语义校准问题。
- 核心思路：作者认为 temporal tabular shift 本质上并不只是 covariate shift，也不只是 label shift，而是大量 subjectively interpreted feature 在时间上发生概念漂移。
- 设计动机：如果直接让 backbone 学“某个年份该怎么决策”，模型会记住局部时间模式；如果先把特征语义对齐，再让 backbone 学统一边界，泛化会更稳。
三参数特征调制：均值、尺度、偏度
- 功能：用最少的自由度刻画最关键的时间分布变化。
- 核心思路：作者观察到时间漂移常体现在三类统计变化上：mean shift、std shift 和 skewness shift。于是分别用 \(\beta\)、\(\gamma\)、\(\lambda\) 去对应这三种变化。
- 设计动机：这不是无约束大超网络，而是有强归纳偏置的轻量调制器，因此更不容易过拟合。
Yeo-Johnson 变换替代单纯 FiLM
- 功能：允许对特征分布做可微的非线性重塑。
- 核心思路：FiLM 只能做缩放和平移，最多对均值和方差起作用。本文加入 Yeo-Johnson 变换后，可以动态改变分布形状，尤其适合偏斜、重尾或随时间变形的特征。
- 设计动机：很多表格特征不是高斯型，时间漂移也不只表现为线性平移，因此必须有形状层面的调制能力。
多层调制与输入层优先
- 功能：在不同表征层面做时间适配。
- 核心思路：调制可作用在原始输入、中间表示和输出 logits。实验证明三层全开最好，但输入层单独调制已能拿到大部分收益。
- 设计动机：输入层拥有最完整、最未失真的原始信息，是语义对齐最自然的位置；深层调制则用于补充更抽象的时间适配。
和 backbone 解耦的轻量实现
- 功能：尽量不破坏现有表格模型结构。
- 核心思路：modulator 只生成 \(3m\) 个参数，\(m\) 为特征维数，而不是像 hypernetwork 那样生成整网权重。
- 设计动机：这样能把该方法较无痛地插进 MLP、TabM 等模型中，成本远低于完整动态网络。

损失函数 / 训练策略¶

分类任务使用交叉熵，回归任务用 MSE。

优化器为 AdamW，并采用早停。

超参搜索使用 Optuna，100 次试验，每个配置用 15 个随机种子取平均。

时间嵌入维度固定为 128，包含周期成分与趋势成分。

从训练策略上看，本文并没有在优化目标上搞复杂 tricks，真正的创新集中在表示层之前的调制机制。

这也是论文一个很有说服力的地方。

它没有依赖特殊 loss 才成立，而是在普通训练协议下就能稳定获益。

实验关键数据¶

主实验¶

实验基准是 TabReD，覆盖 8 个具有时间漂移的真实世界表格数据集。

评价使用分类任务上的 AUC 和回归任务上的 RMSE，并最终汇总为平均排名。

论文最重要的结果是，加入 temporal modulation 后，TabM 的平均排名达到 3.500，优于 CatBoost 的 4.375。

这意味着深度方法第一次在这个时间漂移设置下系统性超过 GBDT。

方法	类型	代表结果	平均排名 ↓	结论
CatBoost	静态 GBDT	HI 0.9639, CT 0.4792	4.375	传统强基线，整体很稳
TabM	静态深度	HI 0.9640, CT 0.4813	7.250	深度模型强，但时间漂移下仍落后
MLP + 时间嵌入	自适应深度	HI 0.9471, CT 0.4801	14.375	直接拼接时间，提升有限
TabM + 时间嵌入	自适应深度	HI 0.9629, CT 0.4791	5.125	比静态深度更好，但仍未最好
TabM + Temporal Modulation	本文方法	HI 0.9641, CT 0.4773	3.500	首次在平均排名上超越 GBDT
MLP + Temporal Modulation	本文方法	HI 0.9593, CT 0.4782	11.000	轻量 backbone 也明显受益

这里有两个值得特别注意的点。

一是 modulation 不只是给强模型锦上添花。

即便换成最普通的 MLP，也能比很多更复杂的静态或时间嵌入方法更强。

二是时间嵌入本身不是没用，但效果明显弱于 modulation。

这支持作者的论断：问题不在于“要不要看时间”，而在于“时间应不应该直接和原始特征混在一起”。

消融实验¶

作者系统比较了调制位置。

结论非常清晰：全层调制最好，但输入层单独调制已经吃到绝大多数收益。

输入层	中间层	输出层	平均提升	占完整提升比例	平均排名 ↓
✗	✗	✗	0.00%	0%	5.500
✓	✗	✗	1.83%	87.4%	3.250
✓	✗	✓	1.54%	73.6%	3.625
✓	✓	✗	1.62%	77.2%	3.750
✓	✓	✓	2.09%	100%	2.500

作者进一步指出，如果去掉输入层调制，完整收益只剩 56.8%。

这个现象说明了一个朴素但重要的事实。

语义对齐越早做越划算。

一旦原始特征在网络早期就被错误地解释，后面再补救会越来越难。

观察点	论文现象	启示
输入层单调制	取得 87.4% 完整收益	最低成本、最易迁移的部署方式
全层调制	平均提升 2.09%	多层调制具有互补性
无输入层调制	完整收益只剩 56.8%	早期表示最关键
时间 embedding 维度增大	传统方法会退化	说明模态纠缠与缩放问题真实存在

关键发现¶

论文第一次比较清楚地把 temporal tabular learning 的困难归结为“特征语义漂移”，而不是泛泛的 non-i.i.d.。
输入层调制贡献了绝大多数收益，说明把语义先对齐，再让 backbone 学判别边界，是比直接时间拼接更自然的路线。
modulation 对 MLP 和 TabM 都有效，说明它不是某个 backbone 的特殊技巧，而更像通用前端。
pilot study 显示，经过调制后，不同时间段的特征分布虽然仍非完全 i.i.d.，但已经足够对齐，能让模型学到一致决策边界。

亮点与洞察¶

“客观语义 / 主观语义”这个分析框架非常好。它把很多业务里难以言明的 temporal drift 变成了可解释的学习目标。
调制统计量的选择很克制。只处理 mean、std、skewness 三类关键变化，却取得了很强效果，这说明好的结构先验比暴力增大模型更重要。
Yeo-Johnson 的引入恰到好处。相比只做 FiLM，本文真正允许分布形状随着时间变化，这点对表格数据特别关键。
输入层即可获得 87.4% 收益。这让方法非常具有工程吸引力，因为部署成本低。
论文本质上是在做“时间条件下的可解释特征工程自动化”。这是一个很值得推广的视角。

局限与展望¶

首先，full-stage modulation 与 PLR embedding 不兼容。

这限制了它和一些最强表格 backbone 的深度结合方式。

其次，实验主要围绕 TabReD 展开。

虽然 TabReD 已经是时间表格学习的重要基准，但跨更多行业和超大规模表格场景的验证仍然必要。

第三，本文主要从 mean、std、skewness 三个统计量出发。

这对大多数漂移足够，但若时间语义变化更复杂，例如多峰分布切换、结构性稀疏模式重排，可能需要更强的调制族。

第四，时间嵌入仍然是预定义结构。

对于不具明显周期的事件驱动场景，仅靠这些先验编码是否足够，还需要继续验证。

第五，作者虽然给出 pilot study，可视化很直观，但对学习到的 \(\gamma\)、\(\beta\)、\(\lambda\) 本身还缺少深入解释。

未来可尝试几个方向。

一个是设计与 PLR 兼容的 modulation 版本。

一个是把 modulation 扩展到表格-文本、多模态表格或带图结构的时序场景。

一个是让调制参数在时间之外再条件于群体、区域或环境变量，形成更细粒度的 context-aware tabular learner。

评分¶

新颖性: ⭐⭐⭐⭐☆ 从语义漂移角度重写 temporal tabular learning，并用 feature modulation 落地，角度很新。
实验充分度: ⭐⭐⭐⭐☆ 主结果、pilot、消融和扩展分析都比较完整，唯一不足是 benchmark 仍偏单一。
写作质量: ⭐⭐⭐⭐☆ 动机很清楚，例子也很直观，方法不难理解。
价值: ⭐⭐⭐⭐⭐ 方法轻量、可迁移、效果扎实，对时间表格学习非常有现实意义。

title: >- [论文解读] Feature-aware Modulation for Learning from Temporal Tabular Data description: >- [NeurIPS 2025][时间分布漂移] 本文针对时间表格数据中的分布漂移问题，提出特征感知时间调制机制，通过基于时间上下文的可学习变换来动态调整特征的偏移（\(\beta\)）、缩放（\(\gamma\)）和偏度（\(\lambda\)），实现跨时间的特征语义对齐，在 TabReD 基准测试上首次让深度学习方法系统性超越 GBDT。 tags: - NeurIPS 2025 - 时间分布漂移 - 特征调制 - Yeo-Johnson变换 - 概念漂移 - 表格数据

Feature-aware Modulation for Learning from Temporal Tabular Data¶

会议: NeurIPS 2025
arXiv: 2512.03678
代码: https://github.com/LAMDA-Tabular/Tabular-Temporal-Modulation
领域: 信号与通信 / 表格学习
关键词: 时间分布漂移, 特征调制, Yeo-Johnson变换, 概念漂移, 表格数据

一句话总结¶

本文针对时间表格数据中的分布漂移问题，提出特征感知时间调制机制，通过基于时间上下文的可学习变换来动态调整特征的偏移（\(\beta\)）、缩放（\(\gamma\)）和偏度（\(\lambda\)），实现跨时间的特征语义对齐，在 TabReD 基准测试上首次让深度学习方法系统性超越 GBDT。

研究背景与动机¶

领域现状：表格数据学习领域中，树模型（XGBoost、CatBoost、LightGBM）因其鲁棒性长期占据统治地位。近年来深度模型（FT-Transformer、TabR、TabM 等）缩小了差距，但在真实世界的时间分布漂移场景下仍难以超越 GBDT。现有方法普遍假设 i.i.d.，忽视了数据分布随时间演变的事实。

现有痛点：真实场景中特征的语义会随时间变化。例如"高收入"的定义会因通胀而改变——50万年薪在10年前是高收入，现在可能只是中等。坐标不变但"黄金地段"的含义会因城市发展而演变。静态模型无法捕捉这种语义漂移；简单的自适应方法（如直接拼接时间嵌入）可能过拟合短期模式，泛化能力不足。

核心矛盾：静态模型有强泛化性但无法适应时间变化；自适应模型关注即时调整但可能牺牲长期稳定性。这构成了鲁棒性与适应性之间的两难困境。

本文目标 如何在泛化性和适应性之间找到平衡点？关键因素是什么？

切入角度：作者发现特征的语义漂移可以通过分布统计量（均值、标准差、偏度）的变化来刻画。如果能根据时间上下文动态调整这些统计量，就能在不同时间段中对齐特征的语义含义。

核心 idea：通过基于时间嵌入的轻量级特征调制（偏移+缩放+非线性变换）来对齐跨时间的特征语义，实现概念漂移免疫。

方法详解¶

整体框架¶

输入是带时间戳的表格特征 \((\mathbf{x}, t)\)。首先从时间戳 \(t\) 提取时间嵌入 \(\psi(t)\)，然后通过轻量级调制器生成逐特征的变换参数 \((\gamma, \beta, \lambda)\)，对原始特征进行 Yeo-Johnson 非线性变换+仿射缩放，得到语义对齐后的特征，最后送入任意骨干网络（MLP/TabM等）进行预测。调制可在输入层、中间层和输出层分别施加。

关键设计¶

特征感知时间调制函数:
- 功能：根据时间上下文动态重塑每个特征的分布
- 核心思路：对每个特征 \(x_i\)，调制函数为 \(\tilde{x}_i = \gamma_i(\psi(t)) \cdot \text{YJ}(x_i; \lambda_i(\psi(t))) + \beta_i(\psi(t))\)，其中 \(\gamma\) 控制缩放（对应标准差对齐）、\(\beta\) 控制偏移（对应均值对齐）、\(\lambda\) 通过 Yeo-Johnson 变换控制非线性形状（对应偏度对齐）。所有调制参数都由以时间嵌入 \(\psi(t)\) 为输入的轻量级 MLP 生成
- 设计动机：与仅做线性仿射调制的 FiLM 不同，引入 Yeo-Johnson 变换可以处理特征分布形状的非线性演变。这三个统计量（均值、标准差、偏度）足以捕获真实数据集中观测到的大部分时间分布漂移
Yeo-Johnson 非线性变换:
- 功能：提供可微、可处理正负值的幂变换
- 核心思路：YJ变换定义为：\(x \geq 0\) 时 \(\text{YJ}(x;\lambda) = ((x+1)^\lambda - 1)/\lambda\)；\(x < 0\) 时 \(\text{YJ}(x;\lambda) = -((-x+1)^{2-\lambda}-1)/(2-\lambda)\)。\(\lambda\) 控制变换的"强度"：\(\lambda=1\) 时为恒等变换，\(\lambda<1\) 压缩右尾，\(\lambda>1\) 拉伸右尾
- 设计动机：相比 Box-Cox（仅处理正值），YJ 能处理任意实值特征。\(\lambda\) 由时间嵌入动态生成，使得同一特征在不同时间段被施加不同程度的非线性校正
多层调制策略:
- 功能：在网络的不同阶段（输入/中间表征/输出logits）施加调制
- 核心思路：调制模块可以灵活地插入到原始输入、中间隐层表征和最终预测输出的三个位置。每个位置使用独立的调制器但共享同一个时间嵌入。所有调制器共享时间嵌入确保参数效率和时间一致性
- 设计动机：消融实验表明三层调制效果最好（+2.09%），但仅在输入层做单次调制已能获得 87.4% 的收益（+1.83%），这说明早期语义对齐最为关键。这也意味着方法可以零成本集成到现有模型中——只需在输入层前加一个调制模块

损失函数 / 训练策略¶

分类任务用交叉熵损失，回归任务用MSE。使用 AdamW 优化器和早停策略（patience=16 epochs）。超参调优用 Optuna（100 trials），每组配置用15个随机种子取平均。时间嵌入维度固定为128，包含年/月/日/时的周期编码和趋势分量。

实验关键数据¶

主实验¶

方法	类型	平均排名	代表性数据集 HI(AUC↑)	CT(RMSE↓)
CatBoost	静态GBDT	4.375	0.9639	0.4792
TabM	静态深度	7.250	0.9640	0.4813
MLP+时间嵌入	自适应	14.375	0.9471	0.4801
TabM+时间嵌入	自适应	5.125	0.9629	0.4791
TabM+时间调制（本文）	自适应	3.500	0.9641	0.4773
MLP+时间调制（本文）	自适应	11.000	0.9593	0.4782

消融实验¶

调制位置	输入	中间	输出	改进（绝对）	改进（相对）
无调制	✗	✗	✗	0.00%	—
仅输入	✓	✗	✗	+1.83%	87.4%
仅输出	✗	✗	✓	+1.02%	48.7%
仅中间	✗	✓	✗	+0.26%	12.6%
全部	✓	✓	✓	+2.09%	100%

关键发现¶

首次让深度模型系统性超越GBDT：TabM+调制（排名3.5）超越了CatBoost（排名4.375），据作者所知这是时间分布漂移设置下的首次
输入层调制贡献了87.4%的性能增益，说明早期的语义对齐是最关键的。去掉输入层调制后，其余两层只能恢复56.8%的增益
即使最简单的 MLP 加上全层调制，也能超越大多数深度学习方法，说明调制机制本身的价值远大于骨干网络的复杂度
时间调制相比时间嵌入的关键优势在于解耦时间模态和输入模态：嵌入方式将时间信息混入特征空间可能产生干扰，调制方式则通过参数化变换间接影响特征，自然避免了缩放问题
Pilot study 可视化清晰展示：调制前不同时间段的特征分布差异巨大→调制后分布对齐→模型可以在统一的表征空间中学到一致的决策边界

亮点与洞察¶

"客观语义 vs 主观语义"的分析视角非常有洞察力。客观语义（如坐标、年薪数值）不随时间变化，但主观语义（"高收入"、"黄金地段"）依赖于分布上下文。调制机制本质上是在恢复主观语义的时间一致性，这个分析框架可以推广到其他领域的分布漂移问题
Yeo-Johnson 变换的引入相比简单的 FiLM（仅线性仿射）增加了极少的计算成本，但能处理分布形状的非线性变化。这种"用参数化统计变换做特征工程"的思路可以迁移到其他领域
设计的极度轻量化令人印象深刻：仅在输入层加一个小 MLP 调制器就能获得 87.4% 的收益，说明好的归纳偏置比复杂架构更重要

局限与展望¶

全层调制与 PLR 嵌入不兼容（PLR 将数值映射为三角函数，破坏了分布语义的可解释性），限制了与 TabR、ModernNCA 等 SOTA 模型的集成
仅在 TabReD 基准上验证，该基准包含8个数据集。更多领域和更大规模数据集上的验证仍需继续扩展
时间嵌入设计依赖于预定义的周期先验（年/月/日/时），对于无明显周期的时间漂移可能效果有限
缺乏对调制参数 \((\gamma, \beta, \lambda)\) 学到值的分析——它们是否真的与特征统计量的变化趋势一致？

评分¶

新颖性: ⭐⭐⭐⭐ "语义对齐"视角新颖，Yeo-Johnson时间调制是对FiLM的有意义扩展
实验充分度: ⭐⭐⭐⭐ TabReD全面对比+消融+pilot study展示充分，但仅限单一基准
写作质量: ⭐⭐⭐⭐ 动机分析清晰，"客观vs主观语义"的例子直观易懂
价值: ⭐⭐⭐⭐ 首次让深度模型在时间漂移表格任务上超越GBDT，方法轻量实用

Feature-aware Modulation for Learning from Temporal Tabular Data¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Feature-aware Modulation for Learning from Temporal Tabular Data¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Feature-aware Modulation for Learning from Temporal Tabular Data¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Feature-aware Modulation for Learning from Temporal Tabular Data¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶