跳转至

Feature-aware Modulation for Learning from Temporal Tabular Data

会议: NeurIPS 2025
arXiv: 2512.03678
代码: https://github.com/LAMDA-Tabular/Tabular-Temporal-Modulation
领域: 时间表格学习 / 信号与通信 / 时序分布漂移
关键词: temporal shift, feature modulation, 概念漂移, Yeo-Johnson, 表格深度学习

一句话总结

论文认为时间表格学习真正难的不是“再加一个时间 embedding”这么简单,而是很多特征的语义会随时间漂移,因此提出 feature-aware modulation,通过时间上下文动态生成每个特征的偏移、缩放与非线性形状参数,把跨时间的语义重新对齐,最终在 TabReD 上让深度模型第一次在平均排名上稳定压过 GBDT。

研究背景与动机

表格学习长期是 GBDT 的天下。

哪怕近年来 FT-Transformer、TabR、TabM、ModernNCA 这类深度模型进步很快,一到真实业务场景里的时间分布漂移,树模型还是常常更稳。

原因在于大多数表格学习方法默认数据满足 i.i.d. 假设。

可在现实里,时间会改变特征和标签的关系。

收入会受通胀影响。

房屋坐标本身不变,但“黄金地段”的含义会随城市发展变化。

用户行为、政策环境、医疗流程、金融风险偏好都会让相同数值在不同年份表达不同意义。

作者把这种现象总结成“特征语义演化”。

更具体地说,特征既有 objective semantics,也有 subjective semantics。

客观语义是数值本身的意义,比如经纬度、绝对工资值。

主观语义则是相对于分布上下文的意义,比如“高收入”“热门地段”“异常高风险”。

真正引发概念漂移的,往往是后者。

这也解释了为什么简单拼接时间 embedding 常常不够。

时间 embedding 是把时间信息直接塞给模型,希望模型自己学会解释变化。

但如果输入特征的语义本身没有先被校正,那么模型很可能把时间模态和输入模态纠缠在一起,导致过拟合短期模式、泛化到未来时失效。

因此作者提出一个更底层的问题。

是否可以不直接让模型记住每个时刻的模式,而是先把不同时间段的特征“翻译”到更一致的语义空间里。

如果可以,那么后续 backbone 就能在一个更稳定的表征空间里学习决策边界。

这就是 feature-aware modulation 的出发点。

方法详解

整体框架

输入是一个带时间戳的表格样本 \((\mathbf{x}, t)\)

模型首先用时间编码器得到时间嵌入 \(\psi(t)\)

然后,一个轻量级 modulator 读取 \(\psi(t)\),为每个特征维度产生三组参数:

\(\gamma\),控制缩放。

\(\beta\),控制平移偏移。

\(\lambda\),控制非线性形状变化。

接着每个特征 \(x_i\) 经过 Yeo-Johnson 变换与仿射调制,形成新特征

\(\tilde{x}_i = \gamma_i(\psi(t)) \cdot \text{YJ}(x_i; \lambda_i(\psi(t))) + \beta_i(\psi(t))\)

这些调制后的特征再送入任意 backbone,例如 MLP 或 TabM。

调制不仅能放在输入层,也可以作用在中间表示层和输出 logits 层。

整套设计的要点是:时间不再作为一个并列输入特征和原始特征硬拼,而是作为“解释特征该如何被理解”的条件信号。

关键设计

  1. 从“时间建模”转向“语义对齐”

    • 功能:把时间漂移问题转写成表示空间中的语义校准问题。
    • 核心思路:作者认为 temporal tabular shift 本质上并不只是 covariate shift,也不只是 label shift,而是大量 subjectively interpreted feature 在时间上发生概念漂移。
    • 设计动机:如果直接让 backbone 学“某个年份该怎么决策”,模型会记住局部时间模式;如果先把特征语义对齐,再让 backbone 学统一边界,泛化会更稳。
  2. 三参数特征调制:均值、尺度、偏度

    • 功能:用最少的自由度刻画最关键的时间分布变化。
    • 核心思路:作者观察到时间漂移常体现在三类统计变化上:mean shift、std shift 和 skewness shift。于是分别用 \(\beta\)\(\gamma\)\(\lambda\) 去对应这三种变化。
    • 设计动机:这不是无约束大超网络,而是有强归纳偏置的轻量调制器,因此更不容易过拟合。
  3. Yeo-Johnson 变换替代单纯 FiLM

    • 功能:允许对特征分布做可微的非线性重塑。
    • 核心思路:FiLM 只能做缩放和平移,最多对均值和方差起作用。本文加入 Yeo-Johnson 变换后,可以动态改变分布形状,尤其适合偏斜、重尾或随时间变形的特征。
    • 设计动机:很多表格特征不是高斯型,时间漂移也不只表现为线性平移,因此必须有形状层面的调制能力。
  4. 多层调制与输入层优先

    • 功能:在不同表征层面做时间适配。
    • 核心思路:调制可作用在原始输入、中间表示和输出 logits。实验证明三层全开最好,但输入层单独调制已能拿到大部分收益。
    • 设计动机:输入层拥有最完整、最未失真的原始信息,是语义对齐最自然的位置;深层调制则用于补充更抽象的时间适配。
  5. 和 backbone 解耦的轻量实现

    • 功能:尽量不破坏现有表格模型结构。
    • 核心思路:modulator 只生成 \(3m\) 个参数,\(m\) 为特征维数,而不是像 hypernetwork 那样生成整网权重。
    • 设计动机:这样能把该方法较无痛地插进 MLP、TabM 等模型中,成本远低于完整动态网络。

损失函数 / 训练策略

分类任务使用交叉熵,回归任务用 MSE。

优化器为 AdamW,并采用早停。

超参搜索使用 Optuna,100 次试验,每个配置用 15 个随机种子取平均。

时间嵌入维度固定为 128,包含周期成分与趋势成分。

从训练策略上看,本文并没有在优化目标上搞复杂 tricks,真正的创新集中在表示层之前的调制机制。

这也是论文一个很有说服力的地方。

它没有依赖特殊 loss 才成立,而是在普通训练协议下就能稳定获益。

实验关键数据

主实验

实验基准是 TabReD,覆盖 8 个具有时间漂移的真实世界表格数据集。

评价使用分类任务上的 AUC 和回归任务上的 RMSE,并最终汇总为平均排名。

论文最重要的结果是,加入 temporal modulation 后,TabM 的平均排名达到 3.500,优于 CatBoost 的 4.375。

这意味着深度方法第一次在这个时间漂移设置下系统性超过 GBDT。

方法 类型 代表结果 平均排名 ↓ 结论
CatBoost 静态 GBDT HI 0.9639, CT 0.4792 4.375 传统强基线,整体很稳
TabM 静态深度 HI 0.9640, CT 0.4813 7.250 深度模型强,但时间漂移下仍落后
MLP + 时间嵌入 自适应深度 HI 0.9471, CT 0.4801 14.375 直接拼接时间,提升有限
TabM + 时间嵌入 自适应深度 HI 0.9629, CT 0.4791 5.125 比静态深度更好,但仍未最好
TabM + Temporal Modulation 本文方法 HI 0.9641, CT 0.4773 3.500 首次在平均排名上超越 GBDT
MLP + Temporal Modulation 本文方法 HI 0.9593, CT 0.4782 11.000 轻量 backbone 也明显受益

这里有两个值得特别注意的点。

一是 modulation 不只是给强模型锦上添花。

即便换成最普通的 MLP,也能比很多更复杂的静态或时间嵌入方法更强。

二是时间嵌入本身不是没用,但效果明显弱于 modulation。

这支持作者的论断:问题不在于“要不要看时间”,而在于“时间应不应该直接和原始特征混在一起”。

消融实验

作者系统比较了调制位置。

结论非常清晰:全层调制最好,但输入层单独调制已经吃到绝大多数收益。

输入层 中间层 输出层 平均提升 占完整提升比例 平均排名 ↓
0.00% 0% 5.500
1.83% 87.4% 3.250
1.54% 73.6% 3.625
1.62% 77.2% 3.750
2.09% 100% 2.500

作者进一步指出,如果去掉输入层调制,完整收益只剩 56.8%。

这个现象说明了一个朴素但重要的事实。

语义对齐越早做越划算。

一旦原始特征在网络早期就被错误地解释,后面再补救会越来越难。

观察点 论文现象 启示
输入层单调制 取得 87.4% 完整收益 最低成本、最易迁移的部署方式
全层调制 平均提升 2.09% 多层调制具有互补性
无输入层调制 完整收益只剩 56.8% 早期表示最关键
时间 embedding 维度增大 传统方法会退化 说明模态纠缠与缩放问题真实存在

关键发现

  • 论文第一次比较清楚地把 temporal tabular learning 的困难归结为“特征语义漂移”,而不是泛泛的 non-i.i.d.。
  • 输入层调制贡献了绝大多数收益,说明把语义先对齐,再让 backbone 学判别边界,是比直接时间拼接更自然的路线。
  • modulation 对 MLP 和 TabM 都有效,说明它不是某个 backbone 的特殊技巧,而更像通用前端。
  • pilot study 显示,经过调制后,不同时间段的特征分布虽然仍非完全 i.i.d.,但已经足够对齐,能让模型学到一致决策边界。

亮点与洞察

  • “客观语义 / 主观语义”这个分析框架非常好。它把很多业务里难以言明的 temporal drift 变成了可解释的学习目标。
  • 调制统计量的选择很克制。只处理 mean、std、skewness 三类关键变化,却取得了很强效果,这说明好的结构先验比暴力增大模型更重要。
  • Yeo-Johnson 的引入恰到好处。相比只做 FiLM,本文真正允许分布形状随着时间变化,这点对表格数据特别关键。
  • 输入层即可获得 87.4% 收益。这让方法非常具有工程吸引力,因为部署成本低。
  • 论文本质上是在做“时间条件下的可解释特征工程自动化”。这是一个很值得推广的视角。

局限与展望

首先,full-stage modulation 与 PLR embedding 不兼容。

这限制了它和一些最强表格 backbone 的深度结合方式。

其次,实验主要围绕 TabReD 展开。

虽然 TabReD 已经是时间表格学习的重要基准,但跨更多行业和超大规模表格场景的验证仍然必要。

第三,本文主要从 mean、std、skewness 三个统计量出发。

这对大多数漂移足够,但若时间语义变化更复杂,例如多峰分布切换、结构性稀疏模式重排,可能需要更强的调制族。

第四,时间嵌入仍然是预定义结构。

对于不具明显周期的事件驱动场景,仅靠这些先验编码是否足够,还需要继续验证。

第五,作者虽然给出 pilot study,可视化很直观,但对学习到的 \(\gamma\)\(\beta\)\(\lambda\) 本身还缺少深入解释。

未来可尝试几个方向。

一个是设计与 PLR 兼容的 modulation 版本。

一个是把 modulation 扩展到表格-文本、多模态表格或带图结构的时序场景。

一个是让调制参数在时间之外再条件于群体、区域或环境变量,形成更细粒度的 context-aware tabular learner。

相关工作与启发

  • vs 直接时间 embedding:后者把时间作为额外输入让模型自己消化,本文则让时间先改写特征解释方式,二者在 inductive bias 上完全不同。
  • vs FiLM / Hypernetwork:本文比 FiLM 多了非线性分布形状调制,比 full hypernetwork 又轻量得多,是一个中间但更实用的方案。
  • vs GBDT:树模型之所以在时间漂移下常更稳,某种程度上就是因为它对特征阈值变化更鲁棒;本文则试图在深度模型里手工补回这种稳定性来源。
  • 对我自己的启发:做时间表格模型时,不要急着堆复杂时序结构,先问一遍“这些特征今天和去年是不是还代表同一件事”。
  • 迁移思路:金融风控、医疗纵向随访、招聘画像、保险定价、房地产估值等场景,都很适合把时间条件下的特征语义对齐作为第一步。

评分

  • 新颖性: ⭐⭐⭐⭐☆ 从语义漂移角度重写 temporal tabular learning,并用 feature modulation 落地,角度很新。
  • 实验充分度: ⭐⭐⭐⭐☆ 主结果、pilot、消融和扩展分析都比较完整,唯一不足是 benchmark 仍偏单一。
  • 写作质量: ⭐⭐⭐⭐☆ 动机很清楚,例子也很直观,方法不难理解。
  • 价值: ⭐⭐⭐⭐⭐ 方法轻量、可迁移、效果扎实,对时间表格学习非常有现实意义。

title: >- [论文解读] Feature-aware Modulation for Learning from Temporal Tabular Data description: >- [NeurIPS 2025][时间分布漂移] 本文针对时间表格数据中的分布漂移问题,提出特征感知时间调制机制,通过基于时间上下文的可学习变换来动态调整特征的偏移(\(\beta\))、缩放(\(\gamma\))和偏度(\(\lambda\)),实现跨时间的特征语义对齐,在 TabReD 基准测试上首次让深度学习方法系统性超越 GBDT。 tags: - NeurIPS 2025 - 时间分布漂移 - 特征调制 - Yeo-Johnson变换 - 概念漂移 - 表格数据


Feature-aware Modulation for Learning from Temporal Tabular Data

会议: NeurIPS 2025
arXiv: 2512.03678
代码: https://github.com/LAMDA-Tabular/Tabular-Temporal-Modulation
领域: 信号与通信 / 表格学习
关键词: 时间分布漂移, 特征调制, Yeo-Johnson变换, 概念漂移, 表格数据

一句话总结

本文针对时间表格数据中的分布漂移问题,提出特征感知时间调制机制,通过基于时间上下文的可学习变换来动态调整特征的偏移(\(\beta\))、缩放(\(\gamma\))和偏度(\(\lambda\)),实现跨时间的特征语义对齐,在 TabReD 基准测试上首次让深度学习方法系统性超越 GBDT。

研究背景与动机

领域现状:表格数据学习领域中,树模型(XGBoost、CatBoost、LightGBM)因其鲁棒性长期占据统治地位。近年来深度模型(FT-Transformer、TabR、TabM 等)缩小了差距,但在真实世界的时间分布漂移场景下仍难以超越 GBDT。现有方法普遍假设 i.i.d.,忽视了数据分布随时间演变的事实。

现有痛点:真实场景中特征的语义会随时间变化。例如"高收入"的定义会因通胀而改变——50万年薪在10年前是高收入,现在可能只是中等。坐标不变但"黄金地段"的含义会因城市发展而演变。静态模型无法捕捉这种语义漂移;简单的自适应方法(如直接拼接时间嵌入)可能过拟合短期模式,泛化能力不足。

核心矛盾:静态模型有强泛化性但无法适应时间变化;自适应模型关注即时调整但可能牺牲长期稳定性。这构成了鲁棒性与适应性之间的两难困境。

本文目标 如何在泛化性和适应性之间找到平衡点?关键因素是什么?

切入角度:作者发现特征的语义漂移可以通过分布统计量(均值、标准差、偏度)的变化来刻画。如果能根据时间上下文动态调整这些统计量,就能在不同时间段中对齐特征的语义含义。

核心 idea:通过基于时间嵌入的轻量级特征调制(偏移+缩放+非线性变换)来对齐跨时间的特征语义,实现概念漂移免疫。

方法详解

整体框架

输入是带时间戳的表格特征 \((\mathbf{x}, t)\)。首先从时间戳 \(t\) 提取时间嵌入 \(\psi(t)\),然后通过轻量级调制器生成逐特征的变换参数 \((\gamma, \beta, \lambda)\),对原始特征进行 Yeo-Johnson 非线性变换+仿射缩放,得到语义对齐后的特征,最后送入任意骨干网络(MLP/TabM等)进行预测。调制可在输入层、中间层和输出层分别施加。

关键设计

  1. 特征感知时间调制函数:

    • 功能:根据时间上下文动态重塑每个特征的分布
    • 核心思路:对每个特征 \(x_i\),调制函数为 \(\tilde{x}_i = \gamma_i(\psi(t)) \cdot \text{YJ}(x_i; \lambda_i(\psi(t))) + \beta_i(\psi(t))\),其中 \(\gamma\) 控制缩放(对应标准差对齐)、\(\beta\) 控制偏移(对应均值对齐)、\(\lambda\) 通过 Yeo-Johnson 变换控制非线性形状(对应偏度对齐)。所有调制参数都由以时间嵌入 \(\psi(t)\) 为输入的轻量级 MLP 生成
    • 设计动机:与仅做线性仿射调制的 FiLM 不同,引入 Yeo-Johnson 变换可以处理特征分布形状的非线性演变。这三个统计量(均值、标准差、偏度)足以捕获真实数据集中观测到的大部分时间分布漂移
  2. Yeo-Johnson 非线性变换:

    • 功能:提供可微、可处理正负值的幂变换
    • 核心思路:YJ变换定义为:\(x \geq 0\)\(\text{YJ}(x;\lambda) = ((x+1)^\lambda - 1)/\lambda\)\(x < 0\)\(\text{YJ}(x;\lambda) = -((-x+1)^{2-\lambda}-1)/(2-\lambda)\)\(\lambda\) 控制变换的"强度":\(\lambda=1\) 时为恒等变换,\(\lambda<1\) 压缩右尾,\(\lambda>1\) 拉伸右尾
    • 设计动机:相比 Box-Cox(仅处理正值),YJ 能处理任意实值特征。\(\lambda\) 由时间嵌入动态生成,使得同一特征在不同时间段被施加不同程度的非线性校正
  3. 多层调制策略:

    • 功能:在网络的不同阶段(输入/中间表征/输出logits)施加调制
    • 核心思路:调制模块可以灵活地插入到原始输入、中间隐层表征和最终预测输出的三个位置。每个位置使用独立的调制器但共享同一个时间嵌入。所有调制器共享时间嵌入确保参数效率和时间一致性
    • 设计动机:消融实验表明三层调制效果最好(+2.09%),但仅在输入层做单次调制已能获得 87.4% 的收益(+1.83%),这说明早期语义对齐最为关键。这也意味着方法可以零成本集成到现有模型中——只需在输入层前加一个调制模块

损失函数 / 训练策略

分类任务用交叉熵损失,回归任务用MSE。使用 AdamW 优化器和早停策略(patience=16 epochs)。超参调优用 Optuna(100 trials),每组配置用15个随机种子取平均。时间嵌入维度固定为128,包含年/月/日/时的周期编码和趋势分量。

实验关键数据

主实验

方法 类型 平均排名 代表性数据集 HI(AUC↑) CT(RMSE↓)
CatBoost 静态GBDT 4.375 0.9639 0.4792
TabM 静态深度 7.250 0.9640 0.4813
MLP+时间嵌入 自适应 14.375 0.9471 0.4801
TabM+时间嵌入 自适应 5.125 0.9629 0.4791
TabM+时间调制(本文) 自适应 3.500 0.9641 0.4773
MLP+时间调制(本文) 自适应 11.000 0.9593 0.4782

消融实验

调制位置 输入 中间 输出 改进(绝对) 改进(相对)
无调制 0.00%
仅输入 +1.83% 87.4%
仅输出 +1.02% 48.7%
仅中间 +0.26% 12.6%
全部 +2.09% 100%

关键发现

  • 首次让深度模型系统性超越GBDT:TabM+调制(排名3.5)超越了CatBoost(排名4.375),据作者所知这是时间分布漂移设置下的首次
  • 输入层调制贡献了87.4%的性能增益,说明早期的语义对齐是最关键的。去掉输入层调制后,其余两层只能恢复56.8%的增益
  • 即使最简单的 MLP 加上全层调制,也能超越大多数深度学习方法,说明调制机制本身的价值远大于骨干网络的复杂度
  • 时间调制相比时间嵌入的关键优势在于解耦时间模态和输入模态:嵌入方式将时间信息混入特征空间可能产生干扰,调制方式则通过参数化变换间接影响特征,自然避免了缩放问题
  • Pilot study 可视化清晰展示:调制前不同时间段的特征分布差异巨大→调制后分布对齐→模型可以在统一的表征空间中学到一致的决策边界

亮点与洞察

  • "客观语义 vs 主观语义"的分析视角非常有洞察力。客观语义(如坐标、年薪数值)不随时间变化,但主观语义("高收入"、"黄金地段")依赖于分布上下文。调制机制本质上是在恢复主观语义的时间一致性,这个分析框架可以推广到其他领域的分布漂移问题
  • Yeo-Johnson 变换的引入相比简单的 FiLM(仅线性仿射)增加了极少的计算成本,但能处理分布形状的非线性变化。这种"用参数化统计变换做特征工程"的思路可以迁移到其他领域
  • 设计的极度轻量化令人印象深刻:仅在输入层加一个小 MLP 调制器就能获得 87.4% 的收益,说明好的归纳偏置比复杂架构更重要

局限与展望

  • 全层调制与 PLR 嵌入不兼容(PLR 将数值映射为三角函数,破坏了分布语义的可解释性),限制了与 TabR、ModernNCA 等 SOTA 模型的集成
  • 仅在 TabReD 基准上验证,该基准包含8个数据集。更多领域和更大规模数据集上的验证仍需继续扩展
  • 时间嵌入设计依赖于预定义的周期先验(年/月/日/时),对于无明显周期的时间漂移可能效果有限
  • 缺乏对调制参数 \((\gamma, \beta, \lambda)\) 学到值的分析——它们是否真的与特征统计量的变化趋势一致?

相关工作与启发

  • vs FiLM (Perez et al. 2018): FiLM 在视觉推理中用条件仿射变换调制特征。本文扩展了两个关键点:(1)用 Yeo-Johnson 变换替代仅缩放+偏移,增加了非线性分布重塑能力;(2)条件输入是时间嵌入而非问题嵌入
  • vs 时间嵌入方法 (Cai et al. 2025): 时间嵌入直接拼接时间信息到输入,通过端到端学习来发现时间模式。本文指出这种方式有缩放问题且模态耦合。调制方式通过参数化变换间接作用,解耦更干净
  • vs HyperNetwork (Ha et al. 2017): HyperNetwork 生成完整模型权重,计算开销大且数据效率低。本文的调制方案只生成 \(3m\) 个参数(\(m\) 为特征维度),是极度轻量的替代方案

评分

  • 新颖性: ⭐⭐⭐⭐ "语义对齐"视角新颖,Yeo-Johnson时间调制是对FiLM的有意义扩展
  • 实验充分度: ⭐⭐⭐⭐ TabReD全面对比+消融+pilot study展示充分,但仅限单一基准
  • 写作质量: ⭐⭐⭐⭐ 动机分析清晰,"客观vs主观语义"的例子直观易懂
  • 价值: ⭐⭐⭐⭐ 首次让深度模型在时间漂移表格任务上超越GBDT,方法轻量实用