Is One Layer Enough? Understanding Inference Dynamics in Tabular Foundation Models¶
会议: ICML 2026
arXiv: 2605.06510
代码: https://github.com/amirbalef/is_one_layer_enough
领域: 可解释性 / 表格基础模型 / 模型压缩
关键词: TabPFN, 表格基础模型, 机理可解释性, 循环 Transformer, 层间动力学
一句话总结¶
作者对 6 个主流表格基础模型 (TFM) 做了首个大规模分层机理分析,发现中后层主要在做"迭代精化"且存在大量冗余,并据此设计了一个只用 20% 参数的单层循环 TFM,性能几乎追平六层原版。
研究背景与动机¶
领域现状:TabPFN、TabICL、LimiX 等基于 Transformer 的表格基础模型在中小规模表格预测上已经全面超过传统 GBDT 流水线,但它们内部到底是怎么"用 in-context learning 做贝叶斯推断"的,几乎是黑箱。
现有痛点:直接套用 LLM 的"logit lens"方法看 TFM 各层表征,结果非常脆弱(实验图 1 显示原始 decoder 在浅层几乎完全失效);同时 TFM 是 encoder-only、非自回归、行不变的,和 LLM 架构差异大,LLM 现有的可解释性结论(早层 detokenize、中层抽象、后层 sharpening)能不能迁移完全没有答案。
核心矛盾:一方面,TFM 比 LLM 小、推理便宜,正适合做"大规模机理研究";另一方面,缺乏对应的分析工具链,且每个 TFM 的 encoder 设计差异巨大,单点研究无法泛化。
本文目标:(1) 设计一套适配 TFM 的层级分析协议;(2) 回答"推理是在哪一层、怎么形成的"以及"和 LLM 比有什么异同";(3) 用结论指导更高效的架构设计。
切入角度:作者注意到 TFM 任务是固定的分类/回归,可以直接训"per-layer decoder"(即"tabular tuned lens"),而不必像 LLM 那样依赖词表投影;并复用 LLM 机理研究里成熟的 skip / repeat / swap 三类干预实验。
核心 idea:通过 embedding 相似度、类别分离间隔、probing classifier、tabular logit lens、层消融、self-repair 6 个实验联合刻画 TFM 的层级动力学,用结论"中后层主要在迭代精化"反向支持"用一层循环替代多层"的更高效架构。
方法详解¶
整体框架¶
研究分为两部分:分析协议 + 概念验证模型。分析协议固定 6 个开源/开权重 TFM(TabPFN v1/v2/2.5、TabICL、LimiX-2M/16M),在 PMLBmini (34 任务) 和 TabArena (15 二分类任务) 上跑 6 个机理实验,每个实验聚焦一个不同粒度的问题(从表征空间相似度到层级干预到自修复)。概念验证部分基于开源 nanoTabPFN,分别训练 6 层原版、单层版、单层循环 6 次版(nanoTabPFNlooped)三种模型,用相同 TabICL prior 做预训练并比较。
关键设计¶
-
Tabular Tuned Lens(表格调谐透镜):
- 功能:把每一层的隐状态映射回任务输出概率,用以测量"该层是否已经形成可用的判别表征"。
- 核心思路:作者发现直接用原 decoder("logit lens")做这件事会在浅层崩坏(图 1 中实线 ROC-AUC 在前几层接近 0.5),因此参照 Belrose 的 tuned lens 思路,为每一层单独继续预训练一个 decoder:冻结主干,用 TabICL 的合成 prior 跑 200 epoch,每层得到一个专属 decoder。
- 设计动机:TFM 是 encoder-only 且行不变的,没有词表 detokenizer 可借鉴,per-layer decoder 是适配 ICL 任务的最自然替代。能直接读出"如果就在这层停止推理、加上轻量分类头能拿多少分",从而判断早退的可行性。
-
三类层级干预(skip / repeat / swap)+ self-repair 分析:
- 功能:用结构性消融逐层评估"该层做了什么"以及"删掉后能不能被后续层补回来"。
- 核心思路:skip 第 \(l\) 层评估其唯一性;repeat 第 \(l\) 层评估"该层是否在做可迭代的精化";swap 相邻两层评估表征序列是否真的对齐。在 skip 实验之上叠加 tuned lens,看后续层能不能把性能拉回原曲线 — 如果能,说明存在 self-repair / 层冗余。
- 设计动机:单看"删完最后输出"会把"冗余"和"自修复"混淆。叠加 lens 后能区分:早层一删就再也补不回来(图 8)说明这是关键唯一功能;中后层 skip 后下一层 lens 性能瞬间反弹,说明是冗余 + 自修复。
-
单层循环 nanoTabPFNlooped 概念验证:
- 功能:把分析结论可操作化 — 如果中后层只是迭代精化,那一层重复 N 次理论上能匹配 N 层堆叠。
- 核心思路:基于 nanoTabPFN 架构(类似 TabPFN v2 但更轻),训三组:6 层堆叠、1 层独立、1 层循环 6 次。三者参数量分别为 3.72M / 0.75M / 0.75M,但 looped 版的"前向计算量"等于 6 层堆叠版;用相同 10000 步、batch 512 的设定从头训练。
- 设计动机:直接对 SOTA TFM 做架构改造代价过大,而 nanoTabPFN 是公开复现版,可以做受控对比,确认性能差异来自"循环 vs 堆叠"而非参数量。
损失函数 / 训练策略¶
nanoTabPFN 系列使用标准 TabPFN 训练目标,TabICL prior 生成器配置 batch=4×10000 batches,特征数 2-30,类别数最多 10,序列长 1024。优化器 AdamW、\(\eta=10^{-4}\)、cosine warmup 2000 步、weight decay=0。单层、6 层、looped 三模型分别耗时 11.9h / 62.3h / 68.8h(单卡 A100)。Per-layer decoder 微调用 200 epoch、batch=8、\(\eta=3\times10^{-5}\)。
实验关键数据¶
主实验¶
表 1 给出 nanoTabPFN 三个版本在 PMLBmini 与 TabArena 上的对比:
| 模型 | 参数量 | 计算量 | PMLBmini 表现 | 与 6 层差距 |
|---|---|---|---|---|
| nanoTabPFN-1l | 0.75M | 1× | 显著最差 | 大幅落后 |
| nanoTabPFN-6l | 3.72M | 6× | 基线 | — |
| nanoTabPFN-looped | 0.75M | 6× | 与 6l 接近 | 几乎追平 |
| TabPFN(2.5) | 10.7M | 24 层 | 上限 | 仍优于 looped |
关键结论:性能差距主要来自"是否做了 6 次精化",而不是"是否有 6 套独立参数"。
消融实验¶
六个机理实验给出层级行为的画像:
| 实验 | 主要发现 | 含义 |
|---|---|---|
| Embedding 相似度 (cos / CKA) | 大模型(TabPFN 2.5、LimiX-16M)形成清晰的"层块" | 块内表征几乎只做小步增量更新 |
| 类别分离 gap | 随深度单调上升,label embedding 比 feature 稍晚抬 | 模型先分离特征再形成标签 |
| Probing classifier | 第 \(i\) 层 probe 推广到 \(j>i\) 层效果好,反向不好 | 后层保留前层信息并叠加新特征 |
| Tabular tuned lens | 多数模型早层就能达到高 AUC | 推理决策实际上"很早"形成 |
| Layer ablation (skip) | 第 1 层删则性能崩,中后层删几乎无损 | 早层=特化映射;中后层=冗余 |
| Self-repair | 中后层 skip 后下一层 lens 性能立刻反弹 | 存在 hydra effect 式自修复 |
关键发现¶
- 早层是不可替代的"映射层":TabICL 和 LimiX-2M 因为有强 encoder(行交互压缩 / RBF 核预处理),对前几个 transformer block 不敏感;其他模型一删第 1 层性能就崩。说明早层主要把原始 token 投到适合 residual stream 操作的空间。
- 中后层冗余 + 自修复:TabPFN(v2) 在第 5 层附近 lens 性能出现"跳跃",前后层之间存在大量重叠计算 — 这正是循环架构能成立的物理基础。
- TFM 与 LLM 的关键差异:TFM 对 layer swap 远比 LLM 敏感(尤其 TabPFN v2),且最后一层即使被破坏也不太影响输出,与 LLM "最后一层做 sharpening 必不可少"形成对比;TFM 的"prediction calibration"阶段更晚也更隐性。
- 强 encoder 是免费午餐:拥有 row-interaction / RBF kernel 等显式特征编码的模型,对深度更不敏感,提示了"宽 encoder + 浅 looped backbone"的设计方向。
亮点与洞察¶
- "Tabular tuned lens"是把 LLM 的 logit lens 干净地迁移到 ICL 表格任务的关键工具:原 decoder 失效不是表征不行,而是表征和 decoder 错位,per-layer decoder 揭示了模型其实早就"知道答案"。
- 三类干预 + lens 叠加的设计很巧:单独看 skip 会把"该层无用"和"该层被自修复"混在一起,叠加 lens 后两者可分。这个分析范式可以直接迁移到所有 ICL 模型。
- 单层循环验证把可解释性研究真正"变现":通常机理研究只给观察、不给方案,本文用 nanoTabPFNlooped 把"中后层在迭代精化"这一结论直接转换为节省 80% 参数的架构。
- 揭示了 TFM 与 LLM 在 layer swap 敏感性、最后一层重要性上的本质差异,为今后 TFM 不能盲目复用 LLM 经验提供了实证。
局限与展望¶
- 实验主要在二分类任务上,多分类和回归只在附录里有限验证;对长 prior、复杂高基数任务的迁移性未知。
- Tabular tuned lens 的 prior 用了 TabICL 的开源版本,对 LimiX 等用更精致 prior 训出来的模型可能偏低估其早层质量。
- nanoTabPFNlooped 仅在小规模做了概念验证(6 层、单层循环),是否能扩到 TabPFN(2.5) 级别的 24 层、5 万样本设定尚未验证。
- 评测没有用 ensemble,结论可能在 TFM 常见的"重复抽样集成"场景下被淡化。
- 未来方向:把分析下推到神经元 / 电路级别;研究 prior 设计如何塑形层级动力学;把同样工具应用于 LLM-based 表格模型(TabLLM 等)做横向对照。
相关工作与启发¶
- vs Lad et al. (Remarkable robustness of LLMs):他们提出 LLM 四阶段推理(detokenize → 特征精化 → ensembling → sharpening),本文证明 TFM 也有类似但分布不同的阶段,且最后一层重要性更低。
- vs Belrose et al. (Tuned Lens):本文把"tuned lens"具体化为 per-layer decoder + tabular prior 微调,绕过 TFM 没有词表的问题。
- vs Looped Transformer (Universal Transformer, Dehghani 2019; Gong 2025):把"循环精化"思想首次迁移到表格 ICL 模型,且用机理实验先证明了"为什么应该循环"。
- vs TabPFN 系列与 LimiX:本文不是新架构竞赛者,而是给整族 TFM 提供解释 + 压缩配方,与之互补。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首个针对 TFM 的大规模分层机理研究,并把结论落地为具体架构改造。
- 实验充分度: ⭐⭐⭐⭐⭐ — 6 模型 × 6 实验 × 2 benchmark,附录还覆盖多分类/回归,证据链非常完整。
- 写作质量: ⭐⭐⭐⭐ — 每个实验都有蓝色"takeaway"框,从观察到结论的逻辑链清晰,但部分图表(如 self-repair)需要细读才能看懂。
- 价值: ⭐⭐⭐⭐ — 给 TFM 社区提供了一个分析模板和"用 1 层做 6 层"的压缩思路,对工业部署有直接意义。