Feature-aware Modulation for Learning from Temporal Tabular Data¶
会议: NeurIPS 2025
arXiv: 2512.03678
代码: https://github.com/LAMDA-Tabular/Tabular-Temporal-Modulation
领域: 时间表格学习 / 信号与通信 / 时序分布漂移
关键词: temporal shift, feature modulation, 概念漂移, Yeo-Johnson, 表格深度学习
一句话总结¶
论文认为时间表格学习真正难的不是“再加一个时间 embedding”这么简单,而是很多特征的语义会随时间漂移,因此提出 feature-aware modulation,通过时间上下文动态生成每个特征的偏移、缩放与非线性形状参数,把跨时间的语义重新对齐,最终在 TabReD 上让深度模型第一次在平均排名上稳定压过 GBDT。
研究背景与动机¶
表格学习长期是 GBDT 的天下。
哪怕近年来 FT-Transformer、TabR、TabM、ModernNCA 这类深度模型进步很快,一到真实业务场景里的时间分布漂移,树模型还是常常更稳。
原因在于大多数表格学习方法默认数据满足 i.i.d. 假设。
可在现实里,时间会改变特征和标签的关系。
收入会受通胀影响。
房屋坐标本身不变,但“黄金地段”的含义会随城市发展变化。
用户行为、政策环境、医疗流程、金融风险偏好都会让相同数值在不同年份表达不同意义。
作者把这种现象总结成“特征语义演化”。
更具体地说,特征既有 objective semantics,也有 subjective semantics。
客观语义是数值本身的意义,比如经纬度、绝对工资值。
主观语义则是相对于分布上下文的意义,比如“高收入”“热门地段”“异常高风险”。
真正引发概念漂移的,往往是后者。
这也解释了为什么简单拼接时间 embedding 常常不够。
时间 embedding 是把时间信息直接塞给模型,希望模型自己学会解释变化。
但如果输入特征的语义本身没有先被校正,那么模型很可能把时间模态和输入模态纠缠在一起,导致过拟合短期模式、泛化到未来时失效。
因此作者提出一个更底层的问题。
是否可以不直接让模型记住每个时刻的模式,而是先把不同时间段的特征“翻译”到更一致的语义空间里。
如果可以,那么后续 backbone 就能在一个更稳定的表征空间里学习决策边界。
这就是 feature-aware modulation 的出发点。
方法详解¶
整体框架¶
输入是一个带时间戳的表格样本 \((\mathbf{x}, t)\)。
模型首先用时间编码器得到时间嵌入 \(\psi(t)\)。
然后,一个轻量级 modulator 读取 \(\psi(t)\),为每个特征维度产生三组参数:
\(\gamma\),控制缩放。
\(\beta\),控制平移偏移。
\(\lambda\),控制非线性形状变化。
接着每个特征 \(x_i\) 经过 Yeo-Johnson 变换与仿射调制,形成新特征
\(\tilde{x}_i = \gamma_i(\psi(t)) \cdot \text{YJ}(x_i; \lambda_i(\psi(t))) + \beta_i(\psi(t))\)。
这些调制后的特征再送入任意 backbone,例如 MLP 或 TabM。
调制不仅能放在输入层,也可以作用在中间表示层和输出 logits 层。
整套设计的要点是:时间不再作为一个并列输入特征和原始特征硬拼,而是作为“解释特征该如何被理解”的条件信号。
关键设计¶
-
从“时间建模”转向“语义对齐”
- 功能:把时间漂移问题转写成表示空间中的语义校准问题。
- 核心思路:作者认为 temporal tabular shift 本质上并不只是 covariate shift,也不只是 label shift,而是大量 subjectively interpreted feature 在时间上发生概念漂移。
- 设计动机:如果直接让 backbone 学“某个年份该怎么决策”,模型会记住局部时间模式;如果先把特征语义对齐,再让 backbone 学统一边界,泛化会更稳。
-
三参数特征调制:均值、尺度、偏度
- 功能:用最少的自由度刻画最关键的时间分布变化。
- 核心思路:作者观察到时间漂移常体现在三类统计变化上:mean shift、std shift 和 skewness shift。于是分别用 \(\beta\)、\(\gamma\)、\(\lambda\) 去对应这三种变化。
- 设计动机:这不是无约束大超网络,而是有强归纳偏置的轻量调制器,因此更不容易过拟合。
-
Yeo-Johnson 变换替代单纯 FiLM
- 功能:允许对特征分布做可微的非线性重塑。
- 核心思路:FiLM 只能做缩放和平移,最多对均值和方差起作用。本文加入 Yeo-Johnson 变换后,可以动态改变分布形状,尤其适合偏斜、重尾或随时间变形的特征。
- 设计动机:很多表格特征不是高斯型,时间漂移也不只表现为线性平移,因此必须有形状层面的调制能力。
-
多层调制与输入层优先
- 功能:在不同表征层面做时间适配。
- 核心思路:调制可作用在原始输入、中间表示和输出 logits。实验证明三层全开最好,但输入层单独调制已能拿到大部分收益。
- 设计动机:输入层拥有最完整、最未失真的原始信息,是语义对齐最自然的位置;深层调制则用于补充更抽象的时间适配。
-
和 backbone 解耦的轻量实现
- 功能:尽量不破坏现有表格模型结构。
- 核心思路:modulator 只生成 \(3m\) 个参数,\(m\) 为特征维数,而不是像 hypernetwork 那样生成整网权重。
- 设计动机:这样能把该方法较无痛地插进 MLP、TabM 等模型中,成本远低于完整动态网络。
损失函数 / 训练策略¶
分类任务使用交叉熵,回归任务用 MSE。
优化器为 AdamW,并采用早停。
超参搜索使用 Optuna,100 次试验,每个配置用 15 个随机种子取平均。
时间嵌入维度固定为 128,包含周期成分与趋势成分。
从训练策略上看,本文并没有在优化目标上搞复杂 tricks,真正的创新集中在表示层之前的调制机制。
这也是论文一个很有说服力的地方。
它没有依赖特殊 loss 才成立,而是在普通训练协议下就能稳定获益。
实验关键数据¶
主实验¶
实验基准是 TabReD,覆盖 8 个具有时间漂移的真实世界表格数据集。
评价使用分类任务上的 AUC 和回归任务上的 RMSE,并最终汇总为平均排名。
论文最重要的结果是,加入 temporal modulation 后,TabM 的平均排名达到 3.500,优于 CatBoost 的 4.375。
这意味着深度方法第一次在这个时间漂移设置下系统性超过 GBDT。
| 方法 | 类型 | 代表结果 | 平均排名 ↓ | 结论 |
|---|---|---|---|---|
| CatBoost | 静态 GBDT | HI 0.9639, CT 0.4792 | 4.375 | 传统强基线,整体很稳 |
| TabM | 静态深度 | HI 0.9640, CT 0.4813 | 7.250 | 深度模型强,但时间漂移下仍落后 |
| MLP + 时间嵌入 | 自适应深度 | HI 0.9471, CT 0.4801 | 14.375 | 直接拼接时间,提升有限 |
| TabM + 时间嵌入 | 自适应深度 | HI 0.9629, CT 0.4791 | 5.125 | 比静态深度更好,但仍未最好 |
| TabM + Temporal Modulation | 本文方法 | HI 0.9641, CT 0.4773 | 3.500 | 首次在平均排名上超越 GBDT |
| MLP + Temporal Modulation | 本文方法 | HI 0.9593, CT 0.4782 | 11.000 | 轻量 backbone 也明显受益 |
这里有两个值得特别注意的点。
一是 modulation 不只是给强模型锦上添花。
即便换成最普通的 MLP,也能比很多更复杂的静态或时间嵌入方法更强。
二是时间嵌入本身不是没用,但效果明显弱于 modulation。
这支持作者的论断:问题不在于“要不要看时间”,而在于“时间应不应该直接和原始特征混在一起”。
消融实验¶
作者系统比较了调制位置。
结论非常清晰:全层调制最好,但输入层单独调制已经吃到绝大多数收益。
| 输入层 | 中间层 | 输出层 | 平均提升 | 占完整提升比例 | 平均排名 ↓ |
|---|---|---|---|---|---|
| ✗ | ✗ | ✗ | 0.00% | 0% | 5.500 |
| ✓ | ✗ | ✗ | 1.83% | 87.4% | 3.250 |
| ✓ | ✗ | ✓ | 1.54% | 73.6% | 3.625 |
| ✓ | ✓ | ✗ | 1.62% | 77.2% | 3.750 |
| ✓ | ✓ | ✓ | 2.09% | 100% | 2.500 |
作者进一步指出,如果去掉输入层调制,完整收益只剩 56.8%。
这个现象说明了一个朴素但重要的事实。
语义对齐越早做越划算。
一旦原始特征在网络早期就被错误地解释,后面再补救会越来越难。
| 观察点 | 论文现象 | 启示 |
|---|---|---|
| 输入层单调制 | 取得 87.4% 完整收益 | 最低成本、最易迁移的部署方式 |
| 全层调制 | 平均提升 2.09% | 多层调制具有互补性 |
| 无输入层调制 | 完整收益只剩 56.8% | 早期表示最关键 |
| 时间 embedding 维度增大 | 传统方法会退化 | 说明模态纠缠与缩放问题真实存在 |
关键发现¶
- 论文第一次比较清楚地把 temporal tabular learning 的困难归结为“特征语义漂移”,而不是泛泛的 non-i.i.d.。
- 输入层调制贡献了绝大多数收益,说明把语义先对齐,再让 backbone 学判别边界,是比直接时间拼接更自然的路线。
- modulation 对 MLP 和 TabM 都有效,说明它不是某个 backbone 的特殊技巧,而更像通用前端。
- pilot study 显示,经过调制后,不同时间段的特征分布虽然仍非完全 i.i.d.,但已经足够对齐,能让模型学到一致决策边界。
亮点与洞察¶
- “客观语义 / 主观语义”这个分析框架非常好。它把很多业务里难以言明的 temporal drift 变成了可解释的学习目标。
- 调制统计量的选择很克制。只处理 mean、std、skewness 三类关键变化,却取得了很强效果,这说明好的结构先验比暴力增大模型更重要。
- Yeo-Johnson 的引入恰到好处。相比只做 FiLM,本文真正允许分布形状随着时间变化,这点对表格数据特别关键。
- 输入层即可获得 87.4% 收益。这让方法非常具有工程吸引力,因为部署成本低。
- 论文本质上是在做“时间条件下的可解释特征工程自动化”。这是一个很值得推广的视角。
局限与展望¶
首先,full-stage modulation 与 PLR embedding 不兼容。
这限制了它和一些最强表格 backbone 的深度结合方式。
其次,实验主要围绕 TabReD 展开。
虽然 TabReD 已经是时间表格学习的重要基准,但跨更多行业和超大规模表格场景的验证仍然必要。
第三,本文主要从 mean、std、skewness 三个统计量出发。
这对大多数漂移足够,但若时间语义变化更复杂,例如多峰分布切换、结构性稀疏模式重排,可能需要更强的调制族。
第四,时间嵌入仍然是预定义结构。
对于不具明显周期的事件驱动场景,仅靠这些先验编码是否足够,还需要继续验证。
第五,作者虽然给出 pilot study,可视化很直观,但对学习到的 \(\gamma\)、\(\beta\)、\(\lambda\) 本身还缺少深入解释。
未来可尝试几个方向。
一个是设计与 PLR 兼容的 modulation 版本。
一个是把 modulation 扩展到表格-文本、多模态表格或带图结构的时序场景。
一个是让调制参数在时间之外再条件于群体、区域或环境变量,形成更细粒度的 context-aware tabular learner。
相关工作与启发¶
- vs 直接时间 embedding:后者把时间作为额外输入让模型自己消化,本文则让时间先改写特征解释方式,二者在 inductive bias 上完全不同。
- vs FiLM / Hypernetwork:本文比 FiLM 多了非线性分布形状调制,比 full hypernetwork 又轻量得多,是一个中间但更实用的方案。
- vs GBDT:树模型之所以在时间漂移下常更稳,某种程度上就是因为它对特征阈值变化更鲁棒;本文则试图在深度模型里手工补回这种稳定性来源。
- 对我自己的启发:做时间表格模型时,不要急着堆复杂时序结构,先问一遍“这些特征今天和去年是不是还代表同一件事”。
- 迁移思路:金融风控、医疗纵向随访、招聘画像、保险定价、房地产估值等场景,都很适合把时间条件下的特征语义对齐作为第一步。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 从语义漂移角度重写 temporal tabular learning,并用 feature modulation 落地,角度很新。
- 实验充分度: ⭐⭐⭐⭐☆ 主结果、pilot、消融和扩展分析都比较完整,唯一不足是 benchmark 仍偏单一。
- 写作质量: ⭐⭐⭐⭐☆ 动机很清楚,例子也很直观,方法不难理解。
- 价值: ⭐⭐⭐⭐⭐ 方法轻量、可迁移、效果扎实,对时间表格学习非常有现实意义。
title: >- [论文解读] Feature-aware Modulation for Learning from Temporal Tabular Data description: >- [NeurIPS 2025][时间分布漂移] 本文针对时间表格数据中的分布漂移问题,提出特征感知时间调制机制,通过基于时间上下文的可学习变换来动态调整特征的偏移(\(\beta\))、缩放(\(\gamma\))和偏度(\(\lambda\)),实现跨时间的特征语义对齐,在 TabReD 基准测试上首次让深度学习方法系统性超越 GBDT。 tags: - NeurIPS 2025 - 时间分布漂移 - 特征调制 - Yeo-Johnson变换 - 概念漂移 - 表格数据