Using maximal information auxiliary variables to improve synthetic data generation based on TabPFN foundation models¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=6PkiUAcTWF
代码: https://github.com/echaibub/MIAV
领域: 表格数据生成 / Tabular Synthetic Data Generation
关键词: TabPFN, 表格数据生成, 最大信息辅助变量, 隐私保护, in-context learning

一句话总结¶

这篇论文指出直接用 TabPFN 做表格合成数据时会在弱相关变量上失效，并提出 maximal information auxiliary variables (MIAV)：通过把随机噪声按真实变量秩匹配成辅助变量，让 TabPFN 只需学习 $X_j$ 与 $M_j$ 的单变量关系，从而更稳定、更高效地生成保留边际分布和关联结构的合成表格数据。

研究背景与动机¶

领域现状：表格合成数据生成通常服务于隐私保护数据共享：研究者希望公开一个看起来像真实数据、能保留统计规律和下游建模价值、但又不直接暴露原始记录的数据副本。传统路线多依赖特定数据集训练的生成模型或统计模型，例如 SMOTE、CTGAN、TVAE、TabDDPM、ARF、Bayesian network 等；这些方法往往需要针对每个数据集调参或训练，迁移能力有限。

现有痛点：TabPFN 这类 tabular foundation model 给这个方向带来一个诱人的替代路线。TabPFN 已经在大量合成任务上预训练，推理时把训练样本作为 context、把待预测样本作为 query，通过一次前向传播近似后验预测分布。因此它不必为每个小表格重新训练一个生成器，理论上可以直接把某一列当作目标变量、其他列当作条件变量，逐列生成合成表格。

核心矛盾：问题在于，监督预测和合成数据生成对“无信息特征”的容忍度完全不同。在监督学习里，如果特征与目标无关，一个合理模型输出接近随机猜测就可以了；但在合成数据里，每个变量本身都要被生成出来。若某个变量 $X_j$ 与其他变量弱相关甚至独立，TabPFN 从 context 特征中几乎拿不到关于 $X_j$ 的信号，生成出的边际分布会漂移，关联结构也会失真。

本文目标：作者要解决的不是重新训练 TabPFN，而是在不改动现有 TabPFN / TabICL foundation model 的前提下，把合成数据生成问题改写成更适合 in-context learning 的形式。具体来说，方法需要在弱相关变量上仍能保留边际分布，同时尽量保持原表的关联结构、降低计算成本，并避免直接 joint factorization 对列顺序敏感的问题。

切入角度：作者观察到，TabPFN 失败的根源并不是模型完全不能生成某个变量，而是条件上下文没有携带足够信息。于是论文人为构造一个与每个真实变量 $X_j$ 单调对应的辅助变量 $M_j$。这个辅助变量本身来自随机噪声，但通过 rank matching 与 $X_j$ 保持相同秩序，因此在非参数意义下携带关于 $X_j$ 的最大信息。

核心 idea：用“按秩匹配的随机噪声辅助变量”替代“其他真实列”作为 TabPFN 的 in-context 条件，让每个变量都通过自己的 MIAV 生成，从而把弱相关变量难题转成一个信息充足的单变量条件生成问题。

方法详解¶

整体框架¶

这篇论文的方法可以理解成一个“先造可预测的辅助坐标，再用 TabPFN 按列生成”的流程。给定真实表格 $X=(X_1,\ldots,X_p)$，方法先为每一列 $X_j$ 构造一个 maximal information auxiliary variable $M_j$；随后把原始数据拆成两半，在 TabPFN 的 ICL 形式下用 $(m_j^{tr}, x_j^{tr})$ 作为 context，用 $m_j^{ts}$ 作为 query 生成 $\hat{x}_j^{ts}$，再对另一半反向生成，最后拼成完整合成表。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入真实表格 X"] --> B["MIAV 构造<br/>噪声按秩匹配"]
    B --> C["增强后验分解<br/>逐列条件生成"]
    C --> D["TabPFN 单变量 ICL<br/>context: M_j 与 X_j"]
    D --> E["双向拆分生成<br/>X1 与 X2 互作 context"]
    E --> F["合成表格 Z<br/>整数列后处理"]

论文首先讨论两个直接基线。Joint factorization (JF) 按列分解后验预测分布，形式类似 $P(X^{ts}|X^{tr})=\prod_j P(X_j^{ts}|X_{<j}^{ts},X^{tr})$，再用 TabPFN 近似每一项。它的问题有两个：第一列需要人为引入随机噪声 $X_0$ 才能给 TabPFN 一个 context；后续列只依赖前面列，因此结果受列顺序影响。Full conditional (FC) 则为每列使用所有其他列 $X_{-j}$ 作为条件，顺序不敏感，但它不对应一个严格的 joint PPD 分解，并且每次调用 TabPFN 都带 $p-1$ 个特征，列数稍大时计算代价明显上升。

MIAV 的改写更干净：它不问“其他列能否预测 $X_j$”，而是为每列配一个专门的信息载体 $M_j$。增强后的后验预测分布可以写成 $P(X^{ts}|X^{tr},M^{ts},M^{tr})$，再利用 $X_j$ 在给定 $M_j$ 后与其他变量条件独立这一性质，把逐列项化简为 $P(X_j^{ts}|M_j^{ts},M_j^{tr},X_j^{tr})$。因此 TabPFN 的实际调用只需要一个特征列 $M_j$，生成目标是对应的 $X_j$。

关键设计¶

1. 最大信息辅助变量：用秩匹配让随机噪声变成每列的专属上下文

直接 TabPFN 合成数据的弱点是：当 $X_j$ 与其他列弱相关时，模型从 $X_{-j}$ 或 $X_{<j}$ 里看不到足够信号。MIAV 反过来为每个 $X_j$ 构造一个必然有信号的辅助变量。具体做法很朴素：先生成长度为 $n$ 的随机噪声向量并排序；若 $X_j$ 是连续变量，就计算 $X_j$ 的秩，平局随机打破；若 $X_j$ 是类别变量，就先按类别频数给每个类别内的样本分配数值秩，再把排序后的噪声按这些秩重新排列。最后得到的 $m_j$ 与 $x_j$ 具有相同排序。

这个设计的关键不在噪声分布，而在 rank matching。论文默认从 $[0,1]$ 均匀分布采样噪声，但强调分布选择并不敏感，因为 MIAV 真正携带的是样本间的秩结构。对连续变量，$m_j$ 与 $x_j$ 是严格单调对应；对类别变量，numeric rank encoding 让同一类别内部随机排列、不同类别占据不同秩区间。这样 $M_j$ 既不直接复制 $X_j$ 的数值，又在非参数离散化意义下足以确定 $X_j$ 的样本位置关系。

2. 信息论性质：把“弱相关变量无法预测”改写成“给定 MIAV 后无需依赖其他列”

论文给出 Theorem 1 来解释为什么这个简单构造有效。设 $Y$ 是除 $X_j$ 和 $M_j$ 以外的任意变量，则 MIAV 满足两个性质：$I(X_j;Y|M_j)=0$，以及 $H(X_j|M_j)=0$。前者表示在给定 $M_j$ 后，$X_j$ 与其他变量没有额外条件互信息；后者表示 $M_j$ 在秩匹配的非参数意义下包含关于 $X_j$ 的全部信息。

这组性质直接对准 TabPFN 生成失败的根因。JF 和 FC 试图从其他真实列中找预测 $X_j$ 的信号，所以当 $X_j$ 与其他列独立时会失效；MIAV 则把 $X_j$ 的生成条件改成自己的 $M_j$。因此即使原表里某列是弱相关变量，TabPFN 看到的 context 仍然是高信息量的 $(m_j^{tr},x_j^{tr})$。换句话说，MIAV 不是让原表变量之间变得更相关，而是把每列生成所需的信息显式放进该列自己的辅助坐标里。

3. 增强后验分解：让 TabPFN 合成数据有顺序不敏感的概率解释

在增强变量集合 $M=(M_1,\ldots,M_p)$ 后，论文把后验预测分布写为 $P(X^{ts}|X^{tr},M^{ts},M^{tr})$。由于给定 $M_j$ 后 $X_j$ 不再需要依赖其他变量，第 $j$ 项可从 $P(X_j^{ts}|X_{<j}^{ts},X^{tr},M^{ts},M^{tr})$ 化简为 $P(X_j^{ts}|M_j^{ts},M_j^{tr},X_j^{tr})$，最终得到

\[ P(X^{ts}|X^{tr},M^{ts},M^{tr})=\prod_{j=1}^{p}P(X_j^{ts}|M_j^{ts},M_j^{tr},X_j^{tr}). \]

TabPFN 近似的是上式每一项：$q_\theta(x_j^{ts}|m_j^{ts},m_j^{tr},x_j^{tr})$。这比 JF 更稳，因为它不依赖列顺序；也比 FC 更便宜，因为每个变量只用一个辅助特征做 ICL。重要的是，虽然分解后每列看起来独立生成，关联结构并没有完全丢失，因为 $M$ 的各列通过 rank matching 复现了 $X$ 的关联结构，TabPFN 生成出的 $Z$ 会间接受到这组 MIAV 关联的约束。

4. 计算与泛化：单特征 ICL 让方法避开列数瓶颈，并可迁移到 TabICL

TabPFN 的复杂度随样本数和特征数近似为 $O(n^2+p^2)$。JF 和 FC 都需要多次调用带多列特征的 TabPFN，复杂度可概括为 $O(pn^2+p^3)$；MIAV 每次只给一个特征 $M_j$，对 $p$ 个变量循环后复杂度为 $O(pn^2)$。因此当列数增加时，MIAV 的优势会越来越明显，也不需要像 JF 那样通过多种列排列聚合来缓解顺序敏感性。

这个设计还让方法不局限于 TabPFN。只要一个 tabular foundation model 能以 PFN / in-context learning 方式近似条件预测分布，就可以把 $(m_j^{tr},x_j^{tr})$ 和 $m_j^{ts}$ 塞进去。论文用 TabICL 做了分类表格数据上的补充实验，结果显示 MIAV-TabICL 与 MIAV-TabPFN 表现接近，并普遍优于 JF / FC。这说明 MIAV 更像是一种“把合成数据生成问题适配给表格 foundation model 的接口”，而不是 TabPFN 的某个专用 trick。

一个完整示例¶

假设有一个 5 列小表格，其中 $X_2$ 被随机打乱，因此它与其他列几乎没有关联。JF 在生成 $X_1$ 时只能拿随机噪声 $X_0$ 当条件，生成 $X_2$ 时也只能依赖前面已经生成的列；FC 虽然能用所有其他列预测 $X_2$，但这些列本身对 $X_2$ 没有信息。因此两者都会在 $X_2$ 的边际分布上出现明显漂移。

MIAV 的处理方式不同。对 $X_2$，先生成一个均匀噪声向量并排序，再按照 $X_2$ 的秩把噪声重排，得到 $M_2$。在 ICL 中，TabPFN 看到的 context 是训练半表里的 $(m_2^{tr},x_2^{tr})$，query 是测试半表里的 $m_2^{ts}$，目标是预测 $x_2^{ts}$。即使 $X_2$ 与 $X_1,X_3,X_4,X_5$ 都无关，$M_2$ 仍与 $X_2$ 强单调对应，所以生成出的 $\hat{x}_2$ 能更好贴近原始边际分布。

同时，对其他列 $X_1,X_3,X_4,X_5$ 也各自构造 $M_1,M_3,M_4,M_5$。由于每个 $M_j$ 的秩来自对应 $X_j$，$M$ 的列间关联会复现 $X$ 的关联模式。最终合成表不是简单的独立边际采样，而是在每列边际恢复和整体关联结构之间取得了一个由 MIAV 诱导的平衡。

损失函数 / 训练策略¶

本文没有重新训练 TabPFN 或 TabICL，也没有引入新的神经网络损失函数。训练策略更准确地说是 inference-time generation strategy：给定预训练 TabPFN，方法把原始数据划分成 $X_1$ 与 $X_2$ 两个子集，先用 $X_2$ 的 MIAV 和真实值作为 context 生成 $X_1$ 的合成副本，再反向用 $X_1$ 生成 $X_2$ 的合成副本，最后拼接得到完整合成数据。

对整数变量，生成后会根据原始数据类型把对应合成列四舍五入到最近整数。论文还提出 noisy-MIAV 变体：在 $m_j^{tr}$ 和 $m_j^{ts}$ 上加入均值为 0、标准差为 $\text{percent}\cdot sd(m_j)$ 的高斯噪声。这个变体不是主方法必需步骤，而是用于在敏感场景中提高隐私保护，代价是数据 fidelity 会下降。

实验关键数据¶

主实验¶

论文做了三组基于 TabPFN 的实验：第一组是可控相关强度的 correlated beta 模拟数据；第二组是 OpenML-CC18 中 36 个真实数据集；第三组是 7 个更适合与 DDPM、CTGAN、TVAE、ARF、Bayesian network 等传统/深度生成器对比的真实数据集。评价覆盖 fidelity、utility 和 privacy：KS 衡量边际分布，L2D 衡量关联矩阵，DT 衡量真假可分性，MLE 衡量下游机器学习效用，DCR / SDBRL / SSDID 衡量隐私风险。

实验设置	对比方法	主要 fidelity 结论	隐私结论
correlated beta 模拟数据，$	\rho	\in{0,0.25,0.5,0.75,0.95}$	MIAV, JF, FC, SMOTE, holdout
36 个 OpenML-CC18 小中型真实数据集	MIAV, JF, FC, SMOTE, holdout	MIAV 在 KS、L2D、DT 上稳定优于 JF / FC，整体接近 SMOTE	MIAV 在 DCR、SDBRL、SSDID 上相比 SMOTE 有更好的隐私表现
7 个基线对比真实数据集	MIAV, JF, FC, SMOTE, DDPM, CTGAN, TVAE, ARF, BN	MIAV 超过大多数生成器；DDPM 只在 DT 上优于 MIAV，其余 fidelity 指标 MIAV 更好	MIAV 的 DCR 往往较好，但在 SDBRL / SSDID 上不总是优于所有传统基线

论文的图 4 给出 pooled results：总体上，SMOTE 在 fidelity 上通常略强于 MIAV，但 privacy 风险更高；MIAV 在 fidelity 上明显强于 TabPFN 直接生成路线 JF / FC，也比多数深度/传统基线更稳。作者强调，不能只看单个指标，因为不同指标会得出不完全一致的排序，例如 Bayesian network 在 WD / ED 上意外较强，但在 MLE、L2D、DT 上较弱。

消融实验¶

严格说，论文没有做传统意义上的“去掉某模块”的消融，而是通过多个直接策略、不同相关强度、runtime benchmark 和 noisy-MIAV 变体来验证 MIAV 设计的必要性。最接近消融的证据如下：

配置	关键指标 / 观察	说明
JF：joint factorization 直接生成	在弱相关变量上 KS / density 明显变差，且受列顺序影响	说明只按列条件分解不足以处理无信息或弱信息 context
FC：full conditional 直接生成	能修复部分强相关变量，但对完全无关变量仍失败，计算更贵	说明“用更多真实列做条件”不能解决目标变量本身与其他列无关的问题
MIAV	在 $\rho$ 从 0.95 降到 0 的模拟实验中更稳定，弱相关时仍能贴近边际分布	说明 rank-matched auxiliary variable 是关键有效因素
Noisy-MIAV	加噪后 privacy 可提高，fidelity 随噪声增大下降	说明 MIAV 信息量太强时可通过受控噪声调节隐私-保真权衡
MIAV-TabICL	在 8 个类别数据集上与 MIAV-TabPFN 表现相近，并优于 JF / FC	说明方法不只绑定 TabPFN，能迁移到其他 PFN-based tabular foundation model

关键发现¶

MIAV 的优势在弱相关场景最明显。模拟实验把变量相关强度从 $|\rho|=0.95$ 降到 $0$，JF 和 FC 的生成质量随着相关性下降而退化，而 MIAV 的边际分布恢复更稳定。
MIAV 不是简单记忆原数据。它通过 rank-matched noise 提供强信息辅助变量，因此 fidelity 高；但隐私指标显示它仍与 SMOTE 等方法存在 trade-off，且 noisy-MIAV 可以作为进一步提升隐私的调节手段。
计算实验支持复杂度分析：随着列数增加，FC 和 JF 的 runtime 快速上升，而 MIAV 近似线性增长。这一点对高维表格尤其重要。
TabICL 实验说明 MIAV 是一种通用生成框架。当前 TabICL 只支持分类任务，所以补充实验限制在类别数据集；若未来 TabICL 支持回归，MIAV 有望自然扩展到混合型表格数据。

亮点与洞察¶

MIAV 的巧妙之处在于，它没有把 TabPFN 当成万能联合分布建模器，而是尊重 TabPFN 的 ICL 条件预测形式。把每列生成改写成“用自己的辅助变量预测自己”，比强行从其他列挖信号更贴近模型能力边界。
rank matching 是一个很轻量但信息量极强的桥梁。随机噪声本来没有语义，但一旦按真实变量秩重排，就变成了既不直接复制数值、又能携带样本顺序信息的辅助坐标。
论文把一个工程 trick 写出了清楚的概率解释。Theorem 1 和增强 PPD 分解让 MIAV 不只是“经验上有效”，而是解释了为什么给定 $M_j$ 后可以摆脱对其他列的依赖。
方法对未来表格 foundation model 很友好。TabPFN-2.5、TabICL 或其他 PFN-based 模型越强，MIAV 作为 inference-time adapter 的收益可能越大，而不需要重新设计合成器。
这篇论文也提醒合成数据评估不能只看 fidelity。SMOTE 可以非常像真实数据，但隐私风险也更高；JF / FC 看起来更私密，可能只是因为生成质量差。MIAV 的价值在于给出一个相对可控的中间点。

局限与展望¶

MIAV 继承底层 TabPFN 的规模限制。论文实验使用的 TabPFNv2 有最大行数、内存和推理速度限制；虽然 MIAV 缓解了列数限制，但样本数瓶颈仍取决于 foundation model 本身。
方法需要访问完整原始数据来构造 $M^{tr}$ 和 $M^{ts}$。这对合成数据生成是合理的，因为目标就是复制一个已有数据集；但它绝不能用于普通监督学习测试集增强，否则会把测试目标信息泄漏进 MIAV。
隐私保护还不是最终答案。MIAV 的 fidelity 很强，但 rank-matched auxiliary variable 也携带大量关于原数据的结构信息；noisy-MIAV 给出调节方向，但具体噪声强度如何选仍需要任务和监管约束驱动。
对类别变量的 numeric rank encoding 依赖类别顺序和随机打破平局。论文给出了算法和例子，但在高基数类别、稀有类别或语义类别顺序很重要的场景中，仍可能需要更细的设计。
实验主要围绕小到中等规模表格数据。未来如果 TabPFN-2.5 或新版 TabICL 支持更大规模、更复杂混合类型表格，MIAV 在真实工业数据共享场景中的表现还需要进一步验证。

评分¶

新颖性: ⭐⭐⭐⭐☆ 用 rank-matched auxiliary variable 适配 TabPFN 合成数据很简洁，理论解释也到位，但核心构造建立在已有非参数数据合成思想之上。
实验充分度: ⭐⭐⭐⭐☆ 覆盖模拟数据、43 个真实数据集、多个 fidelity / privacy / utility 指标和 TabICL 扩展；不足是缺少更大规模真实业务表格和更系统的 privacy attack 分析。
写作质量: ⭐⭐⭐⭐☆ 论文逻辑清楚，先展示直接方法失败，再给理论和实验；但附录图表很多，主文没有提供足够多的数值表，读者需要在图中读趋势。
价值: ⭐⭐⭐⭐☆ 对表格 foundation model 生成合成数据很有参考价值，尤其适合小数据、隐私保护共享和不想为每个数据集训练生成器的场景。