Active Tabular Augmentation via Policy-Guided Diffusion Inpainting¶
会议: ICML 2026
arXiv: 2605.10315
代码: https://github.com/oooranz/TAP
领域: 数据增强 / 表格生成 / 强化学习
关键词: 表格数据增强, 扩散填补, 效用驱动选择, 保守提交, 保真度-效用间隙
一句话总结¶
本文形式化了表格增强中的"保真度-效用间隙"问题(生成器优化分布匹配,而增强价值源于低密度区域),提出 TAP 算法通过扩散填补做流形约束提议、策略引导的效用对齐选择、硬约束门控加保守窗口提交,在 7 个真实表格数据集上相比基线最多提升分类精度 15.6%、回归 RMSE 降低 32%。
研究背景与动机¶
领域现状 表格数据驱动医疗、金融、科学决策,但标注数据往往稀缺。数据增强是常用改进方法,但对表格应用脆弱——表格特征的异质性和列间强依赖意味着即使微小扰动也可能违反约束或引入虚假关系。
现有痛点 1. 保真度-效用错位:现有生成器(GANs、VAEs、扩散模型)优化分布匹配 \(P(X,Y)\),鼓励从高密度区域采样。但数据增强成功的样本恰恰源于模型不确定的低密度边界或欠覆盖群体——与生成目标背道而驰。 2. 静态评估不足:SMOTE 等简单方法生成的样本统计上不够真实,却往往有效改进分类器,暗示保真度不是充要条件。
核心矛盾 生成器训练目标与增强评估目标的根本不匹配:生成器关注 \(\max_x\log P(x)\),增强关注 \(\min_\theta L(\theta,D\cup S)\)。
本文目标 学习不仅"如何生成",更要学"生成什么"和"何时注入",使样本动态适应不断演变的学习器。
切入角度 形式化增强为顺序控制问题:每轮维持承诺缓冲和临时池,用策略决定生成条件和注入时机。用影响函数诊断指导设计——效用近似等于学习器损失梯度与 Hessian 逆的作用。
核心 idea 通过三条原则实现效用驱动增强:(1) 流形软约束(扩散填补)+ 硬约束门控(检查有效值范围)= 两层保真度;(2) 策略学习(针对学习器状态)+ 效用对齐选择 = 目标聚焦;(3) 保守窗口提交(累积候选,仅当池收益超过阈值才批量提交)= 鲁棒对抗噪声。
方法详解¶
整体框架¶
TAP 将表格增强形式化为有限地平线、预算约束的 MDP。状态 \((r_t, D_t)\)(剩余预算与已承诺训练集),策略 \(\pi\) 决定两个动作:(i) 轮预算 \(s_t\),(ii) 生成条件 \((c,\eta,\rho)\)(目标类、模板、探索强度)。贪心单轮分配选出最优条件下的 \(k_i\) 单位给个体 \(i\);动态规划求解多轮预算。
关键设计¶
-
扩散填补 + 三元组行动空间:
- 功能:通过条件部分列扩散生成流形局部、保真度高且多样的样本,并解耦目标/局部性/多样性三个生成自由度。
- 核心思路:冻结真实样本部分列作为锚点,在其余列上反向扩散并用条件(如目标类标签)引导:\(x_{\bar m}^{(s-1)}\leftarrow\sqrt{\bar\alpha_{s-1}}x_{\bar m}+\sqrt{1-\bar\alpha_{s-1}}\epsilon\)(噪声覆写固定列)。行动 \(a=(c,\eta,\rho)\) 分别控制类条件、conservative/explore 模板、模板内重写列比例,诱导不同提议分布 \(Q_a(\cdot|D_t)\)。
- 设计动机:锚点条件强制流形局部性,受限列最小化虚假变化,条件约束对齐生成与增强目标;三元组让策略可对不同学习阶段使用不同权衡。
-
效用驱动策略 + 硬约束门控:
- 功能:根据学习器实时状态选择高价值生成条件,并强制表格特定有效性约束。
- 核心思路:学习器状态 \(s_t=(\delta_t,u_t,g_t,d_t)\) 分别追踪欠覆盖、不确定性、最近门控通过率、冗余度。策略以状态为输入、动作分布为输出,最大化 KL-正则化的边际效用 \(\max_\pi \mathbb E[\hat A_t]-\beta\,\mathrm{KL}(\pi\|\pi_{\text{ref}})\)。生成的候选经接受函数 \(G(x;D_t)\in\{0,1\}\) 检查类别有效性、数值范围、逻辑一致性(如年龄<死亡年龄)。
- 设计动机:状态设计直接对应影响函数诊断中学习器损失的梯度成分,自动引导策略走向边界/欠覆盖区;硬门控提供软流形之外的第二道安全防线。
-
保守窗口提交:
- 功能:累积候选,仅在池的共同收益足够时才批量提交,对抗噪声估计。
- 核心思路:维护长度 \(K\) 滑动窗口 \(P_t\)。在提交检查点计算 \(\Delta\hat U(D_t,P_t^{(K)})=\hat L_\psi(D_t)-\hat L_\psi(D_t\cup P_t^{(K)})\)(用 TabPFN 插件评估器在硬查询集上度量)。仅当 \(\Delta\hat U>\tau+\epsilon_t\) 才提交,\(\tau\) 是最小收益阈值,\(\epsilon_t\) 是校准不确定性区间。
- 设计动机:稀缺数据下单样本可能有害;窗口积累后共同效用更稳定,更易超越噪声边界。
损失函数与训练策略¶
轨迹目标:\(J(\pi)=\mathbb E_\pi[\sum_{t\geq 1}\gamma^{t-1}\Delta U(D_t,P_t)]\),沿提交时刻分解为 \(\sum_i \Delta U(D_{t_i},P_i)\)。插件效用评估器 \(f_\psi\) 取 TabPFN(快速上下文学习器),仅用于候选排名;最终报告的收益通过完整模型在验证集上重新训练得到。
实验关键数据¶
主实验¶
| 数据集 | \(N_{\text{真实}}\) | 指标 | SMOTE | TVAE | CTGAN | ARF | SPADA | TabDDPM | TabDiff | TAP |
|---|---|---|---|---|---|---|---|---|---|---|
| MiceProtein | 20 | Acc↑ | 36.21 | 41.34 | 36.93 | 32.35 | 36.91 | 37.59 | 34.05 | 44.60 |
| 100 | Acc↑ | 71.96 | 71.27 | 63.59 | 65.13 | 65.01 | 68.86 | 66.95 | 73.06 | |
| 500 | Acc↑ | 96.44 | 96.65 | 93.75 | 93.71 | 94.56 | 96.13 | 93.81 | 96.11 | |
| Credit-G | 20 | Acc↑ | 66.37 | 59.06 | 65.79 | 65.48 | 64.25 | 57.58 | 63.99 | 68.13 |
| 100 | Acc↑ | 67.53 | 68.27 | 68.65 | 67.26 | 67.27 | 66.09 | 64.07 | 70.73 | |
| Electricity | 50 | Acc↑ | 69.05 | 64.71 | 69.09 | 63.64 | 70.81 | 69.61 | 66.11 | 71.55 |
| 100 | Acc↑ | 72.73 | 68.21 | 72.15 | 67.21 | 74.02 | 72.83 | 70.97 | 74.73 | |
| 平均收益 | 20 | \(\Delta\) | +3.5% | +5.8% | +4.2% | base | +2.1% | +1.8% | 0% | +15.6% |
| 100 | \(\Delta\) | +2.1% | -1.5% | -10.4% | base | -2.3% | -3.2% | -6.7% | +3.8% |
消融实验¶
| 配置 | 验证集精度 | 说明 |
|---|---|---|
| 仅扩散无策略 | 71.2% | 保真度高但无针对性 |
| 贪心策略无提交 | 70.8% | 实时注入,易被噪声欺骗 |
| 硬门控但无软流形 | 68.5% | 过滤过严,多样性下降 |
| 完整 TAP | 74.3% | 所有组件协同 |
| TAP 无窗口提交 | 72.1% | 缺少保守机制,易有害注入 |
关键发现¶
- 保真度并非充分条件:TabDDPM/TabDiff 保真度最高但增强收益有限或为负;TAP 保真度更低却增强收益最高。
- 稀缺数据收益最大:\(N=20\) 时相比最好基线 +15.6%;\(N=500\) 时降到 ~1%(数据充足后增强空间收窄)。
- 流形 + 硬约束两层有效:仅扩散 71.2% 不如双层 74.3%,仅硬门控 68.5% 多样性受损。
- 策略学习超越固定分配:策略在不同稀缺程度下自适应调整探索 vs 利用,固定贪心 70.8% 不如自适应 74.3%。
- 窗口提交防止有害注入:窗口 74.3% vs 无窗口 72.1%,高噪声下差异更显著。
亮点与洞察¶
- 问题形式化的深度:把增强看作序列控制问题,用影响函数诊断直观解释设计。"保真度-效用间隙"的识别是对增强理论的根本洞察。
- 多层设计的周密性:软流形 + 硬约束 + 效用策略 + 保守提交形成完整防线,每层针对不同失败模式。
- 务实的不确定性处理:窗口提交和 \(\tau+\epsilon_t\) 阈值是对稀缺数据下噪声估计的工程化优雅响应。
局限与展望¶
- 依赖参考分布:假设可从历史数据学到准确 \(P\);严重分布偏移下可能失效。
- 评估器是中间变量:TabPFN 评估精度直接影响策略训练,论文未量化估计器误差对策略的影响。
- 规模限制:实验最大 \(N\approx 10k\);超大表格或超高维特征表现未知。
相关工作与启发¶
- vs SMOTE:SMOTE 邻域插值保真度低却常有效;TAP 把"从低密度高不确定区采样"做成了现代化、可学习的范式。
- vs GANs/VAEs/扩散:这些方法优化分布匹配,本文揭示这是"错误目标";TAP 用显式效用优化纠正错位。
- vs 影响函数:Koh & Liang 2017 用影响函数理解样本影响;本文反向应用——用它指导生成方向,是有创意的视角转换。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "保真度-效用间隙"识别是新视角,策略引导表格增强和保守提交都是新方法。
- 实验充分度: ⭐⭐⭐⭐ 7 数据集、5 个稀缺级别、多基线、消融充分;未涵盖聚类/异常检测等其他任务。
- 写作质量: ⭐⭐⭐⭐ 问题形式化清晰,设计原则明确,实验细节充分。
- 价值: ⭐⭐⭐⭐⭐ 在医疗/金融等稀缺数据场景有直接价值,打破"保真度至上"的迷思。