Prior-Free Tabular Test-Time Adaptation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=BgSDPE24pa
代码: https://github.com/rundohe/PFT3A
领域: 表格数据 / 测试时自适应 / 分布偏移
关键词: 表格数据、测试时自适应、标签偏移、特征偏移、prior-free

一句话总结¶

PFT3A 针对表格数据的测试时自适应，在既不能访问源数据、也不知道任何源域先验的严苛设定下，用三个模块（类先验估计、鲁棒特征学习、代表性子空间探索）同时缓解标签偏移和特征偏移，在 5 个 TableShift 数据集、3 种 backbone 上稳定超过现有 SOTA。

研究背景与动机¶

领域现状：深度模型在欺诈检测、医疗诊断等表格任务上已是主力，但部署时常遇到训练（源）与测试（目标）分布不一致——时间漂移、地域差异、采样偏差都会让精度大幅下滑。测试时自适应（TTA）用无标签的测试数据在推理阶段更新模型，是应对分布偏移的热门方案，代表方法如 Tent、EATA。

现有痛点：现有 TTA 几乎都为视觉模态设计，直接搬到表格上往往还不如不做自适应——论文 Fig. 2(a) 显示 TENT 平均精度 58%、ODS 57.56%，都低于 Non-Adaptation 的 60.77%。而专为表格设计的方法又各有依赖：AdapTable、TabLog 需要访问源训练数据；FTAT 虽然不要源数据，但仍依赖从源分布得到的类先验，一旦拿不到先验，FTAT 在 HELOC、Health Ins.、ASSIST 上精度明显跳水。

核心矛盾：真实场景常常既没有源数据、也没有任何域先验，但表格偏移又同时包含两种类型——TableShift 把它们分成特征偏移（feature shift，输入分布变了）和标签偏移（label shift，类别分布变了）。已有方法要么只治标签偏移、要么靠"过滤低置信样本"绕开特征偏移，而过滤会把携带目标域特性的样本一并丢掉，反而把模型拉回源域、损害泛化。

本文目标：定义并解决一个新问题——prior-free 表格 TTA：在不访问源数据、不使用任何先验、也不靠过滤测试数据的前提下，同时缓解标签偏移和特征偏移。

切入角度：作者的关键观察是，源训练好的模型遇到"像源域"的样本时预测更自信、遇到"像目标域"的样本时更不确定。于是可以用预测熵把无标签目标批次劈成 source-like 与 target-like 两堆，用它们当源/目标的代理分布，从而在没有源数据的情况下也能估计先验、对齐特征。

核心 idea：用预测熵构造源/目标代理分布 → 估类先验校准预测治标签偏移 → 在代表性子空间里对齐两个代理分布治特征偏移，全程不碰源数据和先验。

方法详解¶

整体框架¶

PFT3A 在每个到达的无标签目标批次 \(D_t^j\) 上在线运行，由三个模块串联：先用预测熵把这一批样本切成 source-like 集 \(\hat{S}^j\) 和 target-like 集 \(\hat{T}^j\)；类先验估计（CPE）用这两堆数据估出源/目标类先验，按比例缩放校准模型预测、压住标签偏移；鲁棒特征学习（RFL）把两堆特征各自拟合成高斯，最小化二者的 KL 散度让特征分布对齐、压住特征偏移；但表格（尤其二分类）特征高度冗余、很多维方差为零，直接全维 KL 会数值不稳，于是 代表性子空间探索（RSE）先用类 PCA 找出最有信息的子空间，把特征投影进去再对齐。最后特征对齐损失加熵最小化损失联合优化，更新模型后用于本批预测，并把目标先验迭代修正后带入下一批。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["无标签目标批次"] --> B["按预测熵切分<br/>source-like / target-like"]
    B --> C["类先验估计 CPE<br/>估源/目标先验校准预测"]
    B --> D["代表性子空间探索 RSE<br/>类PCA投影去冗余维"]
    D --> E["鲁棒特征学习 RFL<br/>子空间内对齐高斯分布"]
    C --> F["KL对齐 + 熵最小化<br/>联合更新模型"]
    E --> F
    F -->|目标先验迭代修正| A

关键设计¶

1. 类先验估计（CPE）：没有源数据也能估出类先验来治标签偏移

要校准标签偏移，传统做法需要知道源类先验 \(p_S\)，可 prior-free 设定下它不可得。CPE 的办法是借模型自身的"自信度"来无监督地区分源/目标代理数据：对第 \(j\) 批每个样本算预测概率 \(\hat{p}_i = f_{\theta_{j-1}}(x_i)\) 和熵 \(H(\hat{p}_i) = -\sum_k \hat{p}_i^{(k)} \log \hat{p}_i^{(k)}\)，以阈值 \(\epsilon\) 切成 \(\hat{S}^j = \{x_i \mid H(\hat{p}_i) < \epsilon\}\)（低熵、像源域）和 \(\hat{T}^j = \{x_i \mid H(\hat{p}_i) > \epsilon\}\)（高熵、像目标域）。源先验只用第一批的 source-like 集估计 \(\hat{p}_S = \frac{1}{N_{\hat{S}^1}} \sum_{i\in\hat{S}^1} \hat{p}_i\)，因为此时模型还没被目标数据"污染"，对源域知识保留最完整。

目标先验初值同理由 \(\hat{T}^1\) 得到，但模型没见过目标数据、初估偏差大，于是逐批迭代修正：\(\hat{p}_T^j = \mathrm{Norm}(\hat{p}_T^{j-1} - \hat{C}_j^{-1}\tilde{p}_S^j)\)，其中 \(\hat{C}_j\) 是第 \(j\) 批的协方差矩阵、\(\tilde{p}_S^j\) 为当前批 source-like 均值，\(\hat{C}_j^{-1}\tilde{p}_S^j\) 充当偏差校正项。拿到 \(\hat{p}_S, \hat{p}_T^j\) 后按通道比例缩放校准预测：\(\tilde{f}_{\theta_{j-1}}(x_i) = f_{\theta_{j-1}}(x_i) \circ \frac{\hat{p}_T^j}{\hat{p}_S}\)，把源训练时的类别分布偏置纠回目标域，直接对症标签偏移。消融里去掉 CPE 掉点最狠，说明它是三模块里贡献最大的一个。

2. 鲁棒特征学习（RFL）：对齐特征分布而非过滤样本来治特征偏移

特征偏移的根源是源/目标特征分布不一致。已有方法靠"过滤低置信样本"绕开它，但低置信样本恰恰携带目标域特性，丢掉它们会把模型偏回源域。RFL 改成正面对齐：把 \(\hat{S}^j\)、\(\hat{T}^j\) 过特征提取器 \(g\) 得到两组特征，假设它们服从高斯，分别算出源代理分布的均值 \(\mu_S^j\)、方差 \((\sigma^2)_S^j\) 和目标代理分布的 \(\mu_T^j\)、\((\sigma^2)_T^j\)（均值方差按逐元素统计得到），再最小化两高斯之间的 KL 散度

\[\mathcal{L}_{KL} = \mathrm{KL}\big(\mathcal{N}(\mu_S^j,(\sigma^2)_S^j) \,\|\, \mathcal{N}(\mu_T^j,(\sigma^2)_T^j)\big).\]

高斯假设让 KL 有闭式解、计算高效。这样源/目标特征被拉到同一分布，学到的是跨域不变特征，从机制上弥合差距，而不是把目标特有样本删掉，泛化自然更好。

3. 代表性子空间探索（RSE）：只对齐有信息的子空间，避免冗余维拖累对齐

TableShift 多是二分类，特征不如多分类丰富，很多维方差为零、信息冗余。直接在全维上算 RFL 的 KL 会有两个麻烦：冗余维的方差项让 KL 数值不稳；大量无效维稀释对齐效果。RSE 借类 PCA 解决：对 source-like 特征算协方差矩阵 \(\Sigma_S^j = \frac{1}{N_{\hat{S}^j}} \sum (\hat{z}_i - \hat{\mu}_S^j)(\hat{z}_i - \hat{\mu}_S^j)^T\)，取前 \(m\) 个最大特征值对应的特征向量构成投影矩阵 \(V_S \in \mathbb{R}^{m\times d}\)，把特征投到子空间 \(z_i^{proj} = V_S g_{\phi_{j-1}}(x_i)\)，然后在这个 \(m\) 维子空间里重算均值方差、做 KL 对齐（Eq. 14 形式同上）。

这样做不仅去掉了非判别性冗余维、抑制虚假相关，论文还论证子空间内的特征更接近高斯（中心极限定理）、且经 PCA 后各维解耦，让"高斯假设 + KL 闭式解"在子空间里更站得住脚。

损失函数 / 训练策略¶

除子空间内的特征对齐损失 \(\mathcal{L}_{KL}\) 外，还按经典 TTA 加熵最小化损失 \(\mathcal{L}_{ent} = -\sum_k \hat{p}_i^{(k)} \log \hat{p}_i^{(k)}\) 提升预测确定性。总目标为

\[\mathcal{L}_{all} = \beta_1 \mathcal{L}_{KL} + \beta_2 \mathcal{L}_{ent},\]

其中 \(\beta_1, \beta_2\) 平衡两项；\(\zeta\)（关联熵阈值 \(\epsilon\)）控制源/目标切分、\(m\) 控制子空间维度。数据以批为单位在线到达，逐批更新模型并迭代修正目标先验。

实验关键数据¶

主实验¶

5 个 TableShift 数据集（HELOC、ANES、Health Ins.、ASSIST、Hypertension），样本量 10K–5M、特征 26–365 维；三种 backbone（MLP / TabTransformer / FT-Transformer），指标为 Acc / BAcc / F1。下表为 TabTransformer backbone 的平均结果：

方法	Avg Acc	Avg BAcc	Avg F1
Non-Adaptation	60.77	63.46	59.92
TENT	58.00	61.62	52.43
EATA	59.94	62.60	62.05
ODS	57.56	61.35	57.53
FTAT	64.25	65.57	66.38
PFT3A（本文）	68.59	67.42	72.65

PFT3A 比 Non-Adaptation 提升 7.82 / 3.96 / 12.73（Acc/BAcc/F1），比此前最强的表格方法 FTAT 再提升 4.34 / 1.85 / 6.27。多数视觉 TTA 方法（TENT、ODS）甚至低于不自适应，印证直接套用视觉方法在表格上行不通。MLP 与 FT-Transformer backbone 上结论一致（如 MLP backbone 平均 Acc 69.25、FT-Transformer 68.01），体现跨架构泛化性。

消融实验¶

TabTransformer backbone 下逐个去掉模块（Acc）：

配置	HELOC	Health Ins.	ASSIST	说明
w/o CPE	60.46	58.29	53.14	去类先验估计，掉点最严重
w/o RFL	65.94	73.42	58.39	去鲁棒特征学习
w/o RSE	65.74	73.40	58.53	去子空间探索
PFT3A	66.17	74.13	59.29	完整模型

关键发现¶

CPE 贡献最大：去掉它在 Health Ins. 上从 74.13 掉到 58.29（−15.8 点）、HELOC 从 66.17 到 60.46，说明标签偏移校准是 prior-free 表格 TTA 的主要瓶颈。
RFL 与 RSE 各自去掉只小幅掉点，但二者配合（先去冗余维再对齐）才能稳定收益，呼应"全维对齐次优"的分析。
超参 \(\beta_1, \beta_2, \zeta, m\) 均呈先升后降，需适度调参平衡各模块，过大过小都会损害性能。

亮点与洞察¶

用预测熵免费造出源/目标代理分布：在拿不到源数据的情况下，靠"源模型对像源样本更自信"这一性质把无标签批次自切两堆，是整套方法的支点——既给了类先验估计的素材，也给了特征对齐的两端。
正面对齐取代过滤：把"丢掉低置信样本"换成"对齐源/目标特征"，从机制上避免了过滤导致的源域偏置，这一思路可迁移到其他模态的 source-free TTA。
针对表格冗余的子空间对齐：先 PCA 去冗余再做高斯 KL，既解决数值不稳又顺势让高斯假设更成立，是对表格数据特性的针对性利用，而非照搬视觉方法。

局限与展望¶

高斯假设、熵阈值切分都建立在"源模型对源域更自信"这一前提上，若源模型本身校准很差（过自信/欠自信），source-like/target-like 切分可能失真。
主要在 TableShift 的二分类/低类别多样性数据上验证，多分类、特征更丰富场景下 RSE 去冗余的收益是否仍然显著有待检验。
阈值 \(\epsilon\)、子空间维度 \(m\) 等超参需要调，而 prior-free 设定下缺乏验证集，实际部署时如何稳健选参是开放问题。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次定义并解决 prior-free 表格 TTA，三模块设计针对性强。
实验充分度: ⭐⭐⭐⭐ 5 数据集 × 3 backbone + 消融 + 超参分析，覆盖较全。
写作质量: ⭐⭐⭐⭐ 问题分析（三条 limitation）到方法映射清晰。
价值: ⭐⭐⭐⭐ 贴合无源数据/无先验的真实表格部署场景，实用性高。