ICLR 2026 可解释性训练数据归因影响函数奇异学习理论分阶段学习贝叶斯影响函数相变

Influence Dynamics and Stagewise Data Attribution¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=8epkNiuAQC
代码: 待确认
领域: 可解释性 / 训练数据归因（Developmental Interpretability）
关键词: 训练数据归因, 影响函数, 奇异学习理论, 分阶段学习, 贝叶斯影响函数, 相变

一句话总结¶

本文用奇异学习理论（SLT）把"训练数据归因"从静态视角升级为分阶段（stagewise）视角：证明一个样本对另一个样本的影响并非固定不变，而是会在模型发育的相变点处发生符号翻转和尖峰，并用贝叶斯影响函数（BIF）在玩具模型和真实语言模型上验证了这一预言。

研究背景与动机¶

领域现状：训练数据归因（TDA）研究"哪些训练数据塑造了模型行为"，是 AI 可解释性与安全的核心问题。主流工具是影响函数（IF），它通过对训练点做无穷小上调权重、再看其对最终参数 \(w^*\) 处某观测量的影响来度量归因。
现有痛点：经典 IF 继承自正则统计模型分析，隐含假设"数据顺序不影响归因"——即影响是静态、全局的。这要求存在唯一稳定极小点 \(w^*\) 且 Hessian \(H(w^*)\) 可逆。但神经网络的损失地形是退化（degenerate）的：极小点非孤立、Hessian 秩亏，经典 IF 在理论上ill-defined、实践中不稳定（必须加阻尼项），尤其在未收敛的中间 checkpoint 上彻底失效。
核心矛盾：SLT（Watanabe）预言退化会导致分阶段发育——模型在训练中经历一系列相变，在质变的解之间跳转，伴随退化度与 Hessian 秩的改变。既然学习本身是分阶段的，归因工具却仍是静态的，二者根本不匹配。"早期帮助模型学会'狗'的数据，后期可能反而损害它区分'贵宾犬'和'梗犬'。"
本文目标：建立一个把影响函数与发育相变连接起来的理论框架，把 TDA 从"哪些数据重要"扩展到"数据在何时、为何重要"。
核心 idea：【从静态到分阶段】 用 SLT 的相变理论预言"影响是动态量"，并改用对退化地形稳健的贝叶斯影响函数（BIF）来追踪影响随训练时间的完整轨迹。

方法详解¶

整体框架¶

框架沿用 Developmental Interpretability 的三步配方：先用理想化的贝叶斯学习过程建模优化器轨迹，再用 SLT 对分阶段发育做预言，最后在真实网络上实证检验。核心是把度量工具从经典 IF 换成 BIF，再用"全协方差分解"推导出影响在相变处的动态行为，最后在玩具模型与语言模型两个尺度验证。

flowchart LR
    A[SLT: 退化损失地形<br/>导致分阶段相变] --> B[BIF: 用损失协方差<br/>替代 Hessian 逆]
    B --> C[全协方差分解<br/>相内影响 + 相间影响]
    C --> D[预言: 符号翻转<br/>+ 相变处尖峰]
    D --> E1[玩具模型: 层级语义<br/>BIF/解析/LOO 三方验证]
    D --> E2[Pythia 语言模型<br/>token级影响对齐已知相变]

关键设计¶

1. 贝叶斯影响函数（BIF）：用协方差替代 Hessian 逆，让归因在退化地形上良定义。 经典 IF 形如 \(\mathrm{IF}(z_i,\phi) = -\nabla_w\phi(w^*)^\top H^{-1}(w^*)\nabla_w\ell_i(w^*)\)，依赖 Hessian 可逆这一在神经网络上失效的假设。本文转而度量"观测量的后验期望 \(\mathbb{E}[\phi(w)]\) 如何随样本权重变化"，其导数恰好等于观测量与样本损失的负协方差：

\[\mathrm{BIF}(z_i,\phi) = \frac{\partial}{\partial\beta_i}\mathbb{E}_{p_\beta(w|D)}[\phi(w)]\Big|_{\beta=1} = -\mathrm{Cov}_{p(w|D)}(\ell_i(w),\phi(w))\]

这个形式有三个关键好处：它是分布式的（天然契合 SLT 的贝叶斯框架）；它无需 Hessian（用协方差估计替代有问题的 Hessian 逆，因此在退化地形上仍良定义）；它在训练轨迹的任意一点都有定义，而不只在稳定极小点处——这正是把影响当作动态量研究的前提。当正则性假设成立时，BIF 在大数据极限下渐近恢复经典 IF，因此它是经典影响函数的高阶推广。实践中用 RMSProp 预条件的 SGLD（随机梯度 MCMC）采样器从每个 checkpoint \(w^*_t\) 估计局部 BIF。

2. 全协方差分解：把总影响拆成"相内基线"与"相间跳变"两项，从数学上预言尖峰与符号翻转。 在统计物理语言里，BIF 是一种广义磁化率，度量系统对扰动的响应；而磁化率在相变处会发散，这天然提示用它来探测相变。把一阶相变建模为后验在两个邻域 \(U,V\) 上的混合分布 \(p(w|D)=\pi_U p(w|U)+\pi_V p(w|V)\)，再用全协方差定律按相 \(Z\in\{U,V\}\) 条件分解 \(\mathrm{BIF}(z_i,\ell_j)=-\mathrm{Cov}(\ell_i,\ell_j)\)：

\[\mathrm{Cov}(\ell_i,\ell_j) = \underbrace{\pi_U\mathrm{Cov}_U(\ell_i,\ell_j)+\pi_V\mathrm{Cov}_V(\ell_i,\ell_j)}_{\text{相内平均影响（基线）}} + \underbrace{\pi_U\pi_V(\mu_{i,U}-\mu_{i,V})(\mu_{j,U}-\mu_{j,V})}_{\text{相间影响}}\]

其中 \(\mu_{i,U}=\mathbb{E}[\ell_i|U]\)。无相变时 \(\pi_U=1\)，只剩基线项即退化为静态视角。这一分解直接产出两条与经典视角分道扬镳的预言：(a) 影响可变号——若两相的相内影响差异显著，或相间项在过渡期足够大以压过基线，影响幅度会剧变甚至翻转符号；(b) 影响在相变处尖峰——相间项在后验质量均分（\(\pi_U\approx\pi_V\approx 0.5\)）时最大化，其幅度正比于 \((\mu_{i,U}-\mu_{i,V})\)，意味着尖峰最大的恰是"两相最不一致的样本"，从而影响尖峰能定位刻画某次相变的关键样本。

3. 玩具模型上的三方交叉验证：BIF / 解析解 / LOO 重训练相互印证。 在 Saxe 等人的层级语义数据集上训练 2 层深度线性网络（MSE 损失），该模型已知会渐进式学习层级结构：先学"动物 vs 植物"，再学"哺乳类 vs 鸟类"，最后学"狗 vs 猫"。本文同时用三种独立手段度量影响动态：用 SGLD 估计局部 BIF、利用模型可解析性解析推导影响轨迹、以及做留一法（LOO）重训练度量损失差 \(\Delta\ell^{\backslash i}_{j,t}=\ell^D_{j,t}-\ell^{D\backslash i}_{j,t}\)。三者一致显示影响随训练非单调变化并会变号：上调"狗"在早期学"动物 vs 植物"时对学习"麻雀"有帮助（负影响），但在后期学"哺乳类 vs 鸟类"时反而有害（正影响）。更进一步，隐层表示的 MDS 轨迹中各层级的分支节点时刻恰好对齐影响尖峰——模型开始区分一个新层级时，该层级内样本间影响达到峰值。配合"时间窗口消融"实验（仅在 BIF 峰值时段移除样本造成最大损失差），证实该度量准确识别了样本驱动学习的关键窗口。

4. 语言模型上的 token 级分阶段归因：影响动态对齐已知发育相变。 在 Pythia 套件上，BIF 的一大优势是按 token 计算影响零额外开销——自回归损失本就逐 token 计算 \(\ell_i(w)=\sum_k\ell(x_{i,k}|x_{i,0\dots k-1},w)\)，存下逐 token 损失即可估计 token 级 BIF 矩阵。按 Baker 等人的方法把 token 分为句法类（左/右定界符、格式 token）、形态类（词的部分/词尾）与结构类（构成归纳模式的 token），再计算类间"组影响"。结果显示：归纳（induction）关系的类间 BIF 早在 128 步就出现拐点，持续增强约 3 万步后达峰再回落——与 Tigges 等人发现的"Pythia 归纳回路在 30k 步达顶点"完全吻合；左右定界符早期互为构造性（负）影响，随后迅速反转为正，反映模型学会区分"作用域与配对"。一个分阶段干预实验进一步验证实用价值：仅在归纳回路开始形成的窗口内上调归纳模式样本，能比在此之前上调显著加速归纳头的形成。

实验关键数据¶

主实验（玩具模型）¶

验证手段	观测对象	关键结论
局部 BIF（SGLD）	狗→其他样本影响轨迹	非单调、随训练变号
解析 IF	影响的解析表达式	与 BIF 趋势一致；影响是输入-输出协方差奇异模强度的函数（时变）
LOO 重训练	\(\Delta\ell^{\backslash i}_{j,t}\)	与 BIF/解析解同形，验证三者等价
MDS 分支节点	隐表示层级发育	分支时刻对齐影响尖峰

关键发现¶

符号翻转：同一数据点（狗）对查询点（麻雀）的影响在不同发育阶段从"有帮助（负）"翻转为"有害（正）"。
尖峰定位相变：影响峰值出现在新层级开始被学习的时刻，且峰值最大的样本是"两相最不一致"的样本。
时间窗口消融：只在 BIF 峰值时段移除样本造成的损失差最大 → 度量正确识别了"关键学习窗口"。
语言模型对齐：归纳关系 BIF 在 128 步拐点、30k 步达峰回落，与已知归纳回路发育时间表吻合；定界符影响发生符号翻转。
分阶段干预：在归纳回路形成窗口内上调归纳样本，加速归纳头形成的效果显著优于窗口外上调。

亮点与洞察¶

把统计物理的"磁化率发散于相变"直接迁移到数据归因：BIF 作为广义磁化率，使"影响尖峰"成为探测相变最直观的宏观信号，理论优雅且可操作。
三方交叉验证（BIF / 解析 / LOO）极具说服力：在可解析的玩具模型上同时用三种独立方法得到一致结论，几乎排除了"度量本身的伪影"这一质疑。
对 unrolling 类方法（TracIn/SOURCE）的批判一针见血：既然影响会变号，沿训练路径积分的累积归因可能发生抵消效应，从而掩盖样本在特定发育阶段的真实作用。
为"隐式课程"提供了更细粒度机制：不同数据在不同时刻变得"重要"，等价于一个动态自组织的课程，解释了为何显式课程学习常常收效有限。

局限与展望¶

SLT 贝叶斯过程与 SGD 非平衡动力学的理论鸿沟仍未弥合：全文用理想化贝叶斯学习近似真实随机优化，这一桥梁仍是主要理论缺口。
仍是行为层面而非机制层面的归因：度量了"哪些样本何时有影响"，但尚未连接到模型内部学到的具体特征/回路（mechanistic interpretability）。
BIF 估计依赖 SGLD 采样：超参（如 \(\beta,\epsilon,\gamma\)）敏感，需仔细调，扩展到超大模型的稳定性与成本仍待检验。
token 分类不完备也不互斥：部分 token 无类别或同属多类，组影响统计存在噪声。
未来方向：从行为归因走向"数据→损失地形几何→学习动态→模型内部结构"的完整对应链条。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把奇异学习理论的相变框架系统连接到数据归因，提出"分阶段数据归因"新范式，理论与视角都很原创。
实验充分度: ⭐⭐⭐⭐ 玩具模型三方交叉验证扎实，语言模型对齐已知相变且有干预实验佐证；但语言模型部分多为定性/类间统计，缺大规模定量基准。
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰、物理类比贴切、图示（相变/MDS/类间影响）有力，论证层层递进。
价值: ⭐⭐⭐⭐ 为可解释性、数据筛选与训练课程提供了"何时重要"的新工具与新视角，对 unrolling 方法的批判也有方法论意义。