Feature-aware Modulation for Learning from Temporal Tabular Data¶
会议: NeurIPS 2025
arXiv: 2512.03678
代码: https://github.com/LAMDA-Tabular/Tabular-Temporal-Modulation
领域: 时间表格学习 / 信号与通信 / 时序分布漂移
关键词: temporal shift, feature modulation, 概念漂移, Yeo-Johnson, 表格深度学习
一句话总结¶
论文认为时间表格学习真正难的不是“再加一个时间 embedding”这么简单,而是很多特征的语义会随时间漂移,因此提出 feature-aware modulation,通过时间上下文动态生成每个特征的偏移、缩放与非线性形状参数,把跨时间的语义重新对齐,最终在 TabReD 上让深度模型第一次在平均排名上稳定压过 GBDT。
研究背景与动机¶
表格学习长期是 GBDT 的天下。
哪怕近年来 FT-Transformer、TabR、TabM、ModernNCA 这类深度模型进步很快,一到真实业务场景里的时间分布漂移,树模型还是常常更稳。
原因在于大多数表格学习方法默认数据满足 i.i.d. 假设。
可在现实里,时间会改变特征和标签的关系。
收入会受通胀影响。
房屋坐标本身不变,但“黄金地段”的含义会随城市发展变化。
用户行为、政策环境、医疗流程、金融风险偏好都会让相同数值在不同年份表达不同意义。
作者把这种现象总结成“特征语义演化”。
更具体地说,特征既有 objective semantics,也有 subjective semantics。
客观语义是数值本身的意义,比如经纬度、绝对工资值。
主观语义则是相对于分布上下文的意义,比如“高收入”“热门地段”“异常高风险”。
真正引发概念漂移的,往往是后者。
这也解释了为什么简单拼接时间 embedding 常常不够。
时间 embedding 是把时间信息直接塞给模型,希望模型自己学会解释变化。
但如果输入特征的语义本身没有先被校正,那么模型很可能把时间模态和输入模态纠缠在一起,导致过拟合短期模式、泛化到未来时失效。
因此作者提出一个更底层的问题。
是否可以不直接让模型记住每个时刻的模式,而是先把不同时间段的特征“翻译”到更一致的语义空间里。
如果可以,那么后续 backbone 就能在一个更稳定的表征空间里学习决策边界。
这就是 feature-aware modulation 的出发点。
方法详解¶
整体框架¶
输入是一个带时间戳的表格样本 \((\mathbf{x}, t)\)。
模型首先用时间编码器得到时间嵌入 \(\psi(t)\)。
然后,一个轻量级 modulator 读取 \(\psi(t)\),为每个特征维度产生三组参数:
\(\gamma\),控制缩放。
\(\beta\),控制平移偏移。
\(\lambda\),控制非线性形状变化。
接着每个特征 \(x_i\) 经过 Yeo-Johnson 变换与仿射调制,形成新特征
\(\tilde{x}_i = \gamma_i(\psi(t)) \cdot \text{YJ}(x_i; \lambda_i(\psi(t))) + \beta_i(\psi(t))\)。
这些调制后的特征再送入任意 backbone,例如 MLP 或 TabM。
调制不仅能放在输入层,也可以作用在中间表示层和输出 logits 层。
整套设计的要点是:时间不再作为一个并列输入特征和原始特征硬拼,而是作为“解释特征该如何被理解”的条件信号。
关键设计¶
-
从“时间建模”转向“语义对齐”
- 功能:把时间漂移问题转写成表示空间中的语义校准问题。
- 核心思路:作者认为 temporal tabular shift 本质上并不只是 covariate shift,也不只是 label shift,而是大量 subjectively interpreted feature 在时间上发生概念漂移。
- 设计动机:如果直接让 backbone 学“某个年份该怎么决策”,模型会记住局部时间模式;如果先把特征语义对齐,再让 backbone 学统一边界,泛化会更稳。
-
三参数特征调制:均值、尺度、偏度
- 功能:用最少的自由度刻画最关键的时间分布变化。
- 核心思路:作者观察到时间漂移常体现在三类统计变化上:mean shift、std shift 和 skewness shift。于是分别用 \(\beta\)、\(\gamma\)、\(\lambda\) 去对应这三种变化。
- 设计动机:这不是无约束大超网络,而是有强归纳偏置的轻量调制器,因此更不容易过拟合。
-
Yeo-Johnson 变换替代单纯 FiLM
- 功能:允许对特征分布做可微的非线性重塑。
- 核心思路:FiLM 只能做缩放和平移,最多对均值和方差起作用。本文加入 Yeo-Johnson 变换后,可以动态改变分布形状,尤其适合偏斜、重尾或随时间变形的特征。
- 设计动机:很多表格特征不是高斯型,时间漂移也不只表现为线性平移,因此必须有形状层面的调制能力。
-
多层调制与输入层优先
- 功能:在不同表征层面做时间适配。
- 核心思路:调制可作用在原始输入、中间表示和输出 logits。实验证明三层全开最好,但输入层单独调制已能拿到大部分收益。
- 设计动机:输入层拥有最完整、最未失真的原始信息,是语义对齐最自然的位置;深层调制则用于补充更抽象的时间适配。
-
和 backbone 解耦的轻量实现
- 功能:尽量不破坏现有表格模型结构。
- 核心思路:modulator 只生成 \(3m\) 个参数,\(m\) 为特征维数,而不是像 hypernetwork 那样生成整网权重。
- 设计动机:这样能把该方法较无痛地插进 MLP、TabM 等模型中,成本远低于完整动态网络。
损失函数 / 训练策略¶
分类任务使用交叉熵,回归任务用 MSE。
优化器为 AdamW,并采用早停。
超参搜索使用 Optuna,100 次试验,每个配置用 15 个随机种子取平均。
时间嵌入维度固定为 128,包含周期成分与趋势成分。
从训练策略上看,本文并没有在优化目标上搞复杂 tricks,真正的创新集中在表示层之前的调制机制。
这也是论文一个很有说服力的地方。
它没有依赖特殊 loss 才成立,而是在普通训练协议下就能稳定获益。
实验关键数据¶
主实验¶
实验基准是 TabReD,覆盖 8 个具有时间漂移的真实世界表格数据集。
评价使用分类任务上的 AUC 和回归任务上的 RMSE,并最终汇总为平均排名。
论文最重要的结果是,加入 temporal modulation 后,TabM 的平均排名达到 3.500,优于 CatBoost 的 4.375。
这意味着深度方法第一次在这个时间漂移设置下系统性超过 GBDT。
| 方法 | 类型 | 代表结果 | 平均排名 ↓ | 结论 |
|---|---|---|---|---|
| CatBoost | 静态 GBDT | HI 0.9639, CT 0.4792 | 4.375 | 传统强基线,整体很稳 |
| TabM | 静态深度 | HI 0.9640, CT 0.4813 | 7.250 | 深度模型强,但时间漂移下仍落后 |
| MLP + 时间嵌入 | 自适应深度 | HI 0.9471, CT 0.4801 | 14.375 | 直接拼接时间,提升有限 |
| TabM + 时间嵌入 | 自适应深度 | HI 0.9629, CT 0.4791 | 5.125 | 比静态深度更好,但仍未最好 |
| TabM + Temporal Modulation | 本文方法 | HI 0.9641, CT 0.4773 | 3.500 | 首次在平均排名上超越 GBDT |
| MLP + Temporal Modulation | 本文方法 | HI 0.9593, CT 0.4782 | 11.000 | 轻量 backbone 也明显受益 |
这里有两个值得特别注意的点。
一是 modulation 不只是给强模型锦上添花。
即便换成最普通的 MLP,也能比很多更复杂的静态或时间嵌入方法更强。
二是时间嵌入本身不是没用,但效果明显弱于 modulation。
这支持作者的论断:问题不在于“要不要看时间”,而在于“时间应不应该直接和原始特征混在一起”。
消融实验¶
作者系统比较了调制位置。
结论非常清晰:全层调制最好,但输入层单独调制已经吃到绝大多数收益。
| 输入层 | 中间层 | 输出层 | 平均提升 | 占完整提升比例 | 平均排名 ↓ |
|---|---|---|---|---|---|
| ✗ | ✗ | ✗ | 0.00% | 0% | 5.500 |
| ✓ | ✗ | ✗ | 1.83% | 87.4% | 3.250 |
| ✓ | ✗ | ✓ | 1.54% | 73.6% | 3.625 |
| ✓ | ✓ | ✗ | 1.62% | 77.2% | 3.750 |
| ✓ | ✓ | ✓ | 2.09% | 100% | 2.500 |
作者进一步指出,如果去掉输入层调制,完整收益只剩 56.8%。
这个现象说明了一个朴素但重要的事实。
语义对齐越早做越划算。
一旦原始特征在网络早期就被错误地解释,后面再补救会越来越难。
| 观察点 | 论文现象 | 启示 |
|---|---|---|
| 输入层单调制 | 取得 87.4% 完整收益 | 最低成本、最易迁移的部署方式 |
| 全层调制 | 平均提升 2.09% | 多层调制具有互补性 |
| 无输入层调制 | 完整收益只剩 56.8% | 早期表示最关键 |
| 时间 embedding 维度增大 | 传统方法会退化 | 说明模态纠缠与缩放问题真实存在 |
关键发现¶
- 论文第一次比较清楚地把 temporal tabular learning 的困难归结为“特征语义漂移”,而不是泛泛的 non-i.i.d.。
- 输入层调制贡献了绝大多数收益,说明把语义先对齐,再让 backbone 学判别边界,是比直接时间拼接更自然的路线。
- modulation 对 MLP 和 TabM 都有效,说明它不是某个 backbone 的特殊技巧,而更像通用前端。
- pilot study 显示,经过调制后,不同时间段的特征分布虽然仍非完全 i.i.d.,但已经足够对齐,能让模型学到一致决策边界。
亮点与洞察¶
- “客观语义 / 主观语义”这个分析框架非常好。它把很多业务里难以言明的 temporal drift 变成了可解释的学习目标。
- 调制统计量的选择很克制。只处理 mean、std、skewness 三类关键变化,却取得了很强效果,这说明好的结构先验比暴力增大模型更重要。
- Yeo-Johnson 的引入恰到好处。相比只做 FiLM,本文真正允许分布形状随着时间变化,这点对表格数据特别关键。
- 输入层即可获得 87.4% 收益。这让方法非常具有工程吸引力,因为部署成本低。
- 论文本质上是在做“时间条件下的可解释特征工程自动化”。这是一个很值得推广的视角。
局限与展望¶
首先,full-stage modulation 与 PLR embedding 不兼容。
这限制了它和一些最强表格 backbone 的深度结合方式。
其次,实验主要围绕 TabReD 展开。
虽然 TabReD 已经是时间表格学习的重要基准,但跨更多行业和超大规模表格场景的验证仍然必要。
第三,本文主要从 mean、std、skewness 三个统计量出发。
这对大多数漂移足够,但若时间语义变化更复杂,例如多峰分布切换、结构性稀疏模式重排,可能需要更强的调制族。
第四,时间嵌入仍然是预定义结构。
对于不具明显周期的事件驱动场景,仅靠这些先验编码是否足够,还需要继续验证。
第五,作者虽然给出 pilot study,可视化很直观,但对学习到的 \(\gamma\)、\(\beta\)、\(\lambda\) 本身还缺少深入解释。
未来可尝试几个方向。
一个是设计与 PLR 兼容的 modulation 版本。
一个是把 modulation 扩展到表格-文本、多模态表格或带图结构的时序场景。
一个是让调制参数在时间之外再条件于群体、区域或环境变量,形成更细粒度的 context-aware tabular learner。
相关工作与启发¶
- vs 直接时间 embedding:后者把时间作为额外输入让模型自己消化,本文则让时间先改写特征解释方式,二者在 inductive bias 上完全不同。
- vs FiLM / Hypernetwork:本文比 FiLM 多了非线性分布形状调制,比 full hypernetwork 又轻量得多,是一个中间但更实用的方案。
- vs GBDT:树模型之所以在时间漂移下常更稳,某种程度上就是因为它对特征阈值变化更鲁棒;本文则试图在深度模型里手工补回这种稳定性来源。
- 对我自己的启发:做时间表格模型时,不要急着堆复杂时序结构,先问一遍“这些特征今天和去年是不是还代表同一件事”。
- 迁移思路:金融风控、医疗纵向随访、招聘画像、保险定价、房地产估值等场景,都很适合把时间条件下的特征语义对齐作为第一步。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 从语义漂移角度重写 temporal tabular learning,并用 feature modulation 落地,角度很新。
- 实验充分度: ⭐⭐⭐⭐☆ 主结果、pilot、消融和扩展分析都比较完整,唯一不足是 benchmark 仍偏单一。
- 写作质量: ⭐⭐⭐⭐☆ 动机很清楚,例子也很直观,方法不难理解。
- 价值: ⭐⭐⭐⭐⭐ 方法轻量、可迁移、效果扎实,对时间表格学习非常有现实意义。
title: >- [论文解读] Feature-aware Modulation for Learning from Temporal Tabular Data description: >- [NeurIPS 2025][时间分布漂移] 本文针对时间表格数据中的分布漂移问题,提出特征感知时间调制机制,通过基于时间上下文的可学习变换来动态调整特征的偏移(\(\beta\))、缩放(\(\gamma\))和偏度(\(\lambda\)),实现跨时间的特征语义对齐,在 TabReD 基准测试上首次让深度学习方法系统性超越 GBDT。 tags: - NeurIPS 2025 - 时间分布漂移 - 特征调制 - Yeo-Johnson变换 - 概念漂移 - 表格数据
Feature-aware Modulation for Learning from Temporal Tabular Data¶
会议: NeurIPS 2025
arXiv: 2512.03678
代码: https://github.com/LAMDA-Tabular/Tabular-Temporal-Modulation
领域: 信号与通信 / 表格学习
关键词: 时间分布漂移, 特征调制, Yeo-Johnson变换, 概念漂移, 表格数据
一句话总结¶
本文针对时间表格数据中的分布漂移问题,提出特征感知时间调制机制,通过基于时间上下文的可学习变换来动态调整特征的偏移(\(\beta\))、缩放(\(\gamma\))和偏度(\(\lambda\)),实现跨时间的特征语义对齐,在 TabReD 基准测试上首次让深度学习方法系统性超越 GBDT。
研究背景与动机¶
领域现状:表格数据学习领域中,树模型(XGBoost、CatBoost、LightGBM)因其鲁棒性长期占据统治地位。近年来深度模型(FT-Transformer、TabR、TabM 等)缩小了差距,但在真实世界的时间分布漂移场景下仍难以超越 GBDT。现有方法普遍假设 i.i.d.,忽视了数据分布随时间演变的事实。
现有痛点:真实场景中特征的语义会随时间变化。例如"高收入"的定义会因通胀而改变——50万年薪在10年前是高收入,现在可能只是中等。坐标不变但"黄金地段"的含义会因城市发展而演变。静态模型无法捕捉这种语义漂移;简单的自适应方法(如直接拼接时间嵌入)可能过拟合短期模式,泛化能力不足。
核心矛盾:静态模型有强泛化性但无法适应时间变化;自适应模型关注即时调整但可能牺牲长期稳定性。这构成了鲁棒性与适应性之间的两难困境。
本文目标 如何在泛化性和适应性之间找到平衡点?关键因素是什么?
切入角度:作者发现特征的语义漂移可以通过分布统计量(均值、标准差、偏度)的变化来刻画。如果能根据时间上下文动态调整这些统计量,就能在不同时间段中对齐特征的语义含义。
核心 idea:通过基于时间嵌入的轻量级特征调制(偏移+缩放+非线性变换)来对齐跨时间的特征语义,实现概念漂移免疫。
方法详解¶
整体框架¶
输入是带时间戳的表格特征 \((\mathbf{x}, t)\)。首先从时间戳 \(t\) 提取时间嵌入 \(\psi(t)\),然后通过轻量级调制器生成逐特征的变换参数 \((\gamma, \beta, \lambda)\),对原始特征进行 Yeo-Johnson 非线性变换+仿射缩放,得到语义对齐后的特征,最后送入任意骨干网络(MLP/TabM等)进行预测。调制可在输入层、中间层和输出层分别施加。
关键设计¶
-
特征感知时间调制函数:
- 功能:根据时间上下文动态重塑每个特征的分布
- 核心思路:对每个特征 \(x_i\),调制函数为 \(\tilde{x}_i = \gamma_i(\psi(t)) \cdot \text{YJ}(x_i; \lambda_i(\psi(t))) + \beta_i(\psi(t))\),其中 \(\gamma\) 控制缩放(对应标准差对齐)、\(\beta\) 控制偏移(对应均值对齐)、\(\lambda\) 通过 Yeo-Johnson 变换控制非线性形状(对应偏度对齐)。所有调制参数都由以时间嵌入 \(\psi(t)\) 为输入的轻量级 MLP 生成
- 设计动机:与仅做线性仿射调制的 FiLM 不同,引入 Yeo-Johnson 变换可以处理特征分布形状的非线性演变。这三个统计量(均值、标准差、偏度)足以捕获真实数据集中观测到的大部分时间分布漂移
-
Yeo-Johnson 非线性变换:
- 功能:提供可微、可处理正负值的幂变换
- 核心思路:YJ变换定义为:\(x \geq 0\) 时 \(\text{YJ}(x;\lambda) = ((x+1)^\lambda - 1)/\lambda\);\(x < 0\) 时 \(\text{YJ}(x;\lambda) = -((-x+1)^{2-\lambda}-1)/(2-\lambda)\)。\(\lambda\) 控制变换的"强度":\(\lambda=1\) 时为恒等变换,\(\lambda<1\) 压缩右尾,\(\lambda>1\) 拉伸右尾
- 设计动机:相比 Box-Cox(仅处理正值),YJ 能处理任意实值特征。\(\lambda\) 由时间嵌入动态生成,使得同一特征在不同时间段被施加不同程度的非线性校正
-
多层调制策略:
- 功能:在网络的不同阶段(输入/中间表征/输出logits)施加调制
- 核心思路:调制模块可以灵活地插入到原始输入、中间隐层表征和最终预测输出的三个位置。每个位置使用独立的调制器但共享同一个时间嵌入。所有调制器共享时间嵌入确保参数效率和时间一致性
- 设计动机:消融实验表明三层调制效果最好(+2.09%),但仅在输入层做单次调制已能获得 87.4% 的收益(+1.83%),这说明早期语义对齐最为关键。这也意味着方法可以零成本集成到现有模型中——只需在输入层前加一个调制模块
损失函数 / 训练策略¶
分类任务用交叉熵损失,回归任务用MSE。使用 AdamW 优化器和早停策略(patience=16 epochs)。超参调优用 Optuna(100 trials),每组配置用15个随机种子取平均。时间嵌入维度固定为128,包含年/月/日/时的周期编码和趋势分量。
实验关键数据¶
主实验¶
| 方法 | 类型 | 平均排名 | 代表性数据集 HI(AUC↑) | CT(RMSE↓) |
|---|---|---|---|---|
| CatBoost | 静态GBDT | 4.375 | 0.9639 | 0.4792 |
| TabM | 静态深度 | 7.250 | 0.9640 | 0.4813 |
| MLP+时间嵌入 | 自适应 | 14.375 | 0.9471 | 0.4801 |
| TabM+时间嵌入 | 自适应 | 5.125 | 0.9629 | 0.4791 |
| TabM+时间调制(本文) | 自适应 | 3.500 | 0.9641 | 0.4773 |
| MLP+时间调制(本文) | 自适应 | 11.000 | 0.9593 | 0.4782 |
消融实验¶
| 调制位置 | 输入 | 中间 | 输出 | 改进(绝对) | 改进(相对) |
|---|---|---|---|---|---|
| 无调制 | ✗ | ✗ | ✗ | 0.00% | — |
| 仅输入 | ✓ | ✗ | ✗ | +1.83% | 87.4% |
| 仅输出 | ✗ | ✗ | ✓ | +1.02% | 48.7% |
| 仅中间 | ✗ | ✓ | ✗ | +0.26% | 12.6% |
| 全部 | ✓ | ✓ | ✓ | +2.09% | 100% |
关键发现¶
- 首次让深度模型系统性超越GBDT:TabM+调制(排名3.5)超越了CatBoost(排名4.375),据作者所知这是时间分布漂移设置下的首次
- 输入层调制贡献了87.4%的性能增益,说明早期的语义对齐是最关键的。去掉输入层调制后,其余两层只能恢复56.8%的增益
- 即使最简单的 MLP 加上全层调制,也能超越大多数深度学习方法,说明调制机制本身的价值远大于骨干网络的复杂度
- 时间调制相比时间嵌入的关键优势在于解耦时间模态和输入模态:嵌入方式将时间信息混入特征空间可能产生干扰,调制方式则通过参数化变换间接影响特征,自然避免了缩放问题
- Pilot study 可视化清晰展示:调制前不同时间段的特征分布差异巨大→调制后分布对齐→模型可以在统一的表征空间中学到一致的决策边界
亮点与洞察¶
- "客观语义 vs 主观语义"的分析视角非常有洞察力。客观语义(如坐标、年薪数值)不随时间变化,但主观语义("高收入"、"黄金地段")依赖于分布上下文。调制机制本质上是在恢复主观语义的时间一致性,这个分析框架可以推广到其他领域的分布漂移问题
- Yeo-Johnson 变换的引入相比简单的 FiLM(仅线性仿射)增加了极少的计算成本,但能处理分布形状的非线性变化。这种"用参数化统计变换做特征工程"的思路可以迁移到其他领域
- 设计的极度轻量化令人印象深刻:仅在输入层加一个小 MLP 调制器就能获得 87.4% 的收益,说明好的归纳偏置比复杂架构更重要
局限与展望¶
- 全层调制与 PLR 嵌入不兼容(PLR 将数值映射为三角函数,破坏了分布语义的可解释性),限制了与 TabR、ModernNCA 等 SOTA 模型的集成
- 仅在 TabReD 基准上验证,该基准包含8个数据集。更多领域和更大规模数据集上的验证仍需继续扩展
- 时间嵌入设计依赖于预定义的周期先验(年/月/日/时),对于无明显周期的时间漂移可能效果有限
- 缺乏对调制参数 \((\gamma, \beta, \lambda)\) 学到值的分析——它们是否真的与特征统计量的变化趋势一致?
相关工作与启发¶
- vs FiLM (Perez et al. 2018): FiLM 在视觉推理中用条件仿射变换调制特征。本文扩展了两个关键点:(1)用 Yeo-Johnson 变换替代仅缩放+偏移,增加了非线性分布重塑能力;(2)条件输入是时间嵌入而非问题嵌入
- vs 时间嵌入方法 (Cai et al. 2025): 时间嵌入直接拼接时间信息到输入,通过端到端学习来发现时间模式。本文指出这种方式有缩放问题且模态耦合。调制方式通过参数化变换间接作用,解耦更干净
- vs HyperNetwork (Ha et al. 2017): HyperNetwork 生成完整模型权重,计算开销大且数据效率低。本文的调制方案只生成 \(3m\) 个参数(\(m\) 为特征维度),是极度轻量的替代方案
评分¶
- 新颖性: ⭐⭐⭐⭐ "语义对齐"视角新颖,Yeo-Johnson时间调制是对FiLM的有意义扩展
- 实验充分度: ⭐⭐⭐⭐ TabReD全面对比+消融+pilot study展示充分,但仅限单一基准
- 写作质量: ⭐⭐⭐⭐ 动机分析清晰,"客观vs主观语义"的例子直观易懂
- 价值: ⭐⭐⭐⭐ 首次让深度模型在时间漂移表格任务上超越GBDT,方法轻量实用