When Bias Meets Trainability: Connecting Theories of Initialization¶
会议: ICLR 2026
论文: When Bias Meets Trainability: Connecting Theories of Initialization
代码: https://github.com/abassi98/igb_and_trainability
领域: 学习理论 / 神经网络初始化
关键词: 平均场理论, 初始猜测偏见(IGB), 混沌边缘(EOC), 可训练性, 梯度消失/爆炸
一句话总结¶
本文证明了刻画随机初始化宽网络的两套独立理论——分析梯度稳定性/可训练性的平均场理论(Mean-Field, MF)和分析初始预测偏好的初始猜测偏见理论(Initial Guessing Bias, IGB)——其核心量之间存在严格的数学等价,并由此推出一个反直觉结论:使网络最易训练的"混沌边缘"初始化恰恰是最偏见(而非中立)的状态,这种偏见会在训练初期被快速吸收。
研究背景与动机¶
领域现状:理解深网络在"还没见数据"时的初始统计性质,是解释其可训练性的关键。围绕这个问题有两条几乎平行的研究线:一条是平均场理论(Schoenholz、Poole、Hayou 等),它在无限宽极限下分析信号与梯度如何随深度传播,给出了著名的"有序相 / 混沌相"相变——有序相梯度指数消失、混沌相梯度爆炸,二者之间的混沌边缘(Edge of Chaos, EOC) 处信号传播深度尺度发散,网络从第一层到最后一层都能被训练,是最佳初始化点。另一条是近期提出的 IGB 理论(Francazi et al. 2024):一个未训练网络可能对某些类别天生"有偏好",把输入空间的大片区域都判给同一个类(称为 prejudice,偏见),也可能保持 neutrality(中立)——而这只取决于网络结构和初始化,与数据无关。
现有痛点:这两套理论各说各话。MF 专注"梯度稳不稳、能不能训",IGB 专注"初始预测偏不偏",但初始预测偏见对可训练性到底有什么影响,一直不清楚。更糟的是 IGB 原始框架假设偏置方差 \(\sigma_b^2=0\)、只针对单节点激活,且默认"中立初始化学得最快"这一直觉。
核心矛盾:MF 的相图坐标是 \((\sigma_b^2,\sigma_w^2)\),IGB 的相图坐标是偏见强度 \(\gamma\),二者用的是完全不同的"随机性平均方式"——MF 固定数据、对权重系综求平均;IGB 固定一次初始化、把整个输入分布灌进网络。两种平均顺序不同,看起来无法直接对接。
本文目标:(1) 在数学上把 MF 与 IGB 的核心量一一对应起来;(2) 用这个对应回答"初始偏见 ↔ 可训练性"的关系;(3) 把 IGB 推广到非零偏置、多节点激活,并修正已有 MF 相图(如 ReLU)的错误。
切入角度:作者注意到两套理论都成立于"无限宽"极限,且都在研究同一组前激活(pre-activation)分布——只是一个看"激活围绕中心的方差",一个看"中心本身的方差"。如果能证明这两类方差就是同一组量的不同切片,两套理论就能合并。
核心 idea:用一个等价定理把 MF 的信号方差/协方差 \((q_{aa},q_{ab})\) 翻译成 IGB 的"激活漂移比" \(\gamma\),从而在同一张相图上同时读出"可训练性"和"预测偏见",并得到结论——最优可训练态(EOC) = 瞬态深度偏见态。
方法详解¶
整体框架¶
论文是纯理论工作,主线是把两套初始化理论"焊"在一起,再用焊好的统一框架重新解读相图、推出反直觉结论、并做实验验证。整体可以理解成三步:先建立 MF↔IGB 的量级等价(Theorem 3.1)→ 用等价把"梯度稳定性(可训练性)"和"预测偏见"映到同一相图上、得出 EOC 是偏见态(Prop 4.1)→ 把框架推广到更一般的网络与激活,并指出按类梯度的不对称后果。
先交代两套理论各自的语言。MF 里,固定数据、对权重求平均,前激活在无限宽下是均值为 0、方差为 \(q_{aa}^{(l)}\) 的 i.i.d. 高斯;不同输入 \(a,b\) 之间的关系用相关系数 \(c_{ab}^{(l)} = q_{ab}^{(l)}/\sqrt{q_{aa}^{(l)} q_{bb}^{(l)}}\) 刻画。有序/混沌的判别量是 \(\chi_1 \equiv \partial c^{(l+1)}_{ab}/\partial c^{(l)}_{ab}\big|_{c=1}\)(无界激活则用 \(\tilde\chi_1\equiv\partial q^{(l+1)}_{ab}/\partial q^{(l)}_{ab}\big|_{c=1}\)):\(\tilde\chi_1<1\) 梯度消失(有序相),\(\tilde\chi_1>1\) 梯度爆炸(混沌相),\(\tilde\chi_1=1\) 即 EOC。IGB 里,先对数据求平均,每个节点 \(i\) 的前激活变成围绕一个非零中心 \(\mu_i^{(l)}\) 的高斯,中心本身随初始化波动、方差为 \(\sigma_{\mu^{(l)}}^2\),而激活围绕中心的方差是 \(\sigma_{y^{(l)}}^2\)。偏见强弱用激活漂移比度量:
\(\gamma\ll 1\) 时各节点中心被噪声淹没、预测中立;\(\gamma\gg 1\) 时中心漂移主导、大量输入被判给同一类(偏见)。临界点 \(\gamma^{(L)}=1\) 处,被判入参考类的输入比例 \(G_0\) 恰好均匀分布于 \((0,1)\),把"中立"(\(\gamma<1\))和"偏见"(\(\gamma>1\))分开。
关键设计¶
1. MF↔IGB 等价定理:把两套理论的核心量一一对应
这是全文的地基,解决"两种平均方式看似不可对接"的核心矛盾。Theorem 3.1 证明:在均值场区、给定归一化输入(\(q^{(0)}_{aa}=1\)、不同样本 \(q^{(0)}_{ab}=0\)),在无限数据极限下,MF 的两个量恰好就是 IGB 的两类方差:
并由此得到相关系数与漂移比的直接关系:
这个映射的妙处在于:MF 里 \(q_{aa}, q_{ab}\) 本是随数据 \(D\) 变的随机量,但在"先无限宽、再无限数据"的极限下它们集中到均值、可当确定量处理,于是就等同于 IGB 里的 \(\sigma_y^2,\sigma_\mu^2\)。换句话说,MF 看的"同一输入在不同权重下的方差"和 IGB 看的"不同输入在固定权重下的中心方差",在极限下描述的是同一组高斯结构的不同切面。这一步比 IGB 原始框架假设更弱(只要求输出近似高斯),却把两套理论彻底打通——MF 相图里的每个点都能翻译成一个 IGB 偏见强度,反之亦然。
2. EOC 是"瞬态深度偏见"而非中立:最优可训练态恰恰最偏见
有了 \(c=\gamma/(1+\gamma)\),就能把"梯度稳定性"翻译成"偏见强度",得到本文最反直觉的结论(Prop 4.1)。关键观察是:在有序相和 EOC 上,\(c=1\) 都是稳定不动点,对应 \(\gamma\to\infty\),即深度偏见(deep prejudice)——网络在初始化时对某一类有极强偏好。但两者动力学截然不同:
- 有序相(\(\tilde\chi_1<1\)):梯度指数消失,初始条件被"冻住",偏见持久不化(persistent-deep prejudice),网络学不动;
- EOC(\(\tilde\chi_1=1\)):梯度稳定,偏见虽强但能在训练初期被快速吸收(transient-deep prejudice),这才是最优可训练态;
- 混沌相(\(\tilde\chi_1>1\)):梯度爆炸,训练失败,可能表现为偏见也可能中立。
由此得到 Prop 4.1:从可训练性看,最优初始化(EOC)不是中立态,而是一个瞬态的深度偏见态。这直接推翻了 Francazi et al. (2024) "中立初始化学得最快"的猜测——中立态(\(\gamma<1\))只出现在混沌相、伴随梯度爆炸,实测精度很差。实践上,由于 EOC 往往未知解析解,作者建议:扫不同 \((\sigma_w^2,\sigma_b^2)\)、看哪组初始化梯度在深度上保持稳定,那一点就是 EOC。
3. IGB 框架的推广与 MF 相图修正:从 \(\sigma_b^2=0\)、单节点扩到一般情形
原 IGB 只能处理零偏置、单节点激活,覆盖不了真实网络。本文把 IGB 扩展到非零偏置方差 \(\sigma_b^2\)(这样才能落到 MF 的完整 \((\sigma_b^2,\sigma_w^2)\) 相图上)和多节点激活函数(如 max-pool / average-pool),显著拓宽适用范围。同时修正了前人对 ReLU 相图的疏漏:作者证明对 ReLU,相关系数 \(c^{(l)}\) 在整张相图上都收敛到 1(前人以为不是),即存在持久深度偏见;但两个 MF 相仍能区分——靠的是收敛速率与方差行为:有序相中总信号方差有界、\(\gamma^{(l)}\) 随深度指数发散;混沌相中信号方差发散、\(\gamma^{(l)}\) 按幂律发散。这揭示"持久深度偏见"可经两种机制产生:ordered-deep prejudice(\(\sigma_y^2\to 0\)、总方差有界、梯度消失)与 chaotic-deep prejudice(方差爆炸、梯度爆炸),需要两个独立序参量才能区分。
4. 按类梯度的不对称:偏见让梯度消失/爆炸变成"挑类别"的
统一框架的一个直接后果是:初始偏见使得梯度的消失/爆炸依赖于类别。在无界激活的混沌相,输出分布大幅分离,softmax 几乎把概率全压到某一类(取决于权重初始化),导致交叉熵下被偏好类(favored class)的梯度趋于零、其余类梯度爆炸(Fig. 4)。这意味着"梯度爆炸"通常只牵涉一部分类别,造成按类梯度失衡,会显著拖慢学习;而短跑实验(short runs)评估模型时,残余偏见会系统性地偏袒特定类,使超参调优结论失真——除非跑得足够长、让 IGB 被吸收。
损失函数 / 训练策略¶
本文不引入新损失,沿用标准交叉熵训练。理论结论的实践抓手是初始化超参选取:把权重/偏置方差 \((\sigma_w^2,\sigma_b^2)\) 调到使梯度沿深度稳定(即 EOC),既保证梯度稳定,又让初始偏见被最快吸收,从而缩短超参调优所需的训练步数。
实验关键数据¶
主结果:统一相图与相分类¶
下表(对应原文 Table 1)是核心"结果"——用 IGB 序参量 \(\gamma\) 和 MF 序参量 \(c,\tilde\chi_1\) 同时刻画每个相,把"可训练性"与"预测偏见"并排读出:
| IGB (\(\gamma\)) | MF (\(c\)) | 梯度判别 (\(\tilde\chi_1\)) | 相 | 可训练性 |
|---|---|---|---|---|
| \(\gamma=\infty\) | \(c=1\) | \(\tilde\chi_1<1\) | Ordered-deep prejudice | 梯度消失,偏见持久,学不动 |
| \(\gamma=\infty\) | \(c=1\) | \(\tilde\chi_1=1\) | Transient-deep prejudice (EOC) | 梯度稳定,偏见瞬态可吸收,最优 |
| \(\gamma=\infty\) | \(c=1\) | \(\tilde\chi_1>1\) | Chaotic-deep prejudice | 梯度爆炸,训练失败 |
| \(1<\gamma<\infty\) | \(0.5<c<1\) | \(\tilde\chi_1>1\) | (chaotic) Prejudice | 梯度爆炸 |
| \(\gamma<1\) | \(c<0.5\) | \(\tilde\chi_1>1\) | (chaotic) Neutrality | 梯度爆炸,精度差 |
理论验证(Fig. 2):宽度 10000、深度 100 的 MLP,IGB 解析曲线(经 \(c=\gamma/(1+\gamma)\) 计算)与 MF 蒙特卡洛的 90% 中心置信区间高度吻合,证实把信号方差/协方差当确定量处理是合理的。ReLU 的相关系数恒收敛到 1(有序相指数收敛、混沌相幂律收敛),Tanh 则在有序相收敛到 1、混沌相收敛到更低值。
训练动力学验证¶
| 模型 / 设置 | 任务 | 关键观察 |
|---|---|---|
| Tanh MLP | binarized Fashion-MNIST / CIFAR10 | EOC 对应初始最大偏见态,但偏见在训练初期被迅速吸收;中立态精度差、学不起来 |
| Vanilla ViT(去掉 BN/LN/skip) | CIFAR10 | 梯度呈现与 MLP 相同的相变行为,验证结论不限于 MLP |
| 大型 ViT(ImageNet 预训练)微调 | CIFAR100 | 原始未缩放权重=弱 IGB、训练最优;权重 \(\times\sigma_w^2{=}0.5\) 触发强 IGB;\(\times 1.5\) 削弱 IGB 但梯度不稳、反而拖慢训练 |
关键发现¶
- EOC = 最快学 + 最偏见:Fig. 5 显示 EOC 同时是"学习动力学最快"和"初始最大分类偏见"的状态,二者并不矛盾——偏见是瞬态的,会被快速吸收。
- 中立初始化是低效的:与旧直觉相反,中立态只出现在混沌相、伴随梯度爆炸,无法取得高精度。
- 残差/归一化会抹掉相区分:残差 MLP 只有单一临界相(最优学习),所以验证 ViT 时要去掉 BN/LN/skip 才能看到清晰相变;这反过来解释了为何现代架构"天生好训"。
- 按类梯度失衡:混沌深度偏见相里,被偏好类梯度数值为零、其余类爆炸(Fig. 4),对学习速度和质量有显著影响。
亮点与洞察¶
- 两套理论的"罗塞塔石碑":用一个等价定理把研究"能不能训"的 MF 和研究"偏不偏"的 IGB 翻译成同一种语言(\(c=\gamma/(1+\gamma)\)),这种"把两个看似无关框架证明为同一事物"的工作往往最有解释力。
- 反直觉但可证的结论:把"最优初始化必然带偏见"从直觉猜测变成有相图支撑的命题,纠正了"中立=最优"的常识,这是可直接指导初始化设计的洞察。
- 可迁移的实践 trick:把 \((\sigma_w^2,\sigma_b^2)\) 调到梯度沿深度稳定即 EOC,能同时拿到稳定性和最快的偏见吸收,从而缩短超参调优 run——这对算力敏感的调参很实用。
- "短跑评估有偏"的警示:解释了为何用很短的训练步评估模型会系统性偏袒某些类——残余 IGB 还没被吸收,这条对评测设计有直接启发。
局限与展望¶
- 无限宽 + 无限深 + 无限数据的极限假设:全部结论建立在"先宽、再数据、再深"的极限顺序与输出高斯假设上,有限宽/有限深的真实网络偏离多大未充分量化(⚠️ 具体边界以原文为准)。
- 架构覆盖偏理想:清晰相变要靠去掉 BN/LN/skip 的"vanilla"网络才能观察,而现代主流架构恰恰都带这些组件、往往只剩单一临界相,理论对它们的直接指导被作者自己指出会被归一化"模糊化"。
- 偏置/数据分布假设:输入设为标准高斯 i.i.d.、类间同分布,对结构化真实数据的外推需谨慎。
- 改进方向:把"初始化偏见的再吸收条件"做成可操作的诊断/初始化算法,以及研究归一化层究竟如何改变相图(作者引用的 Francazi et al. 2025 "norm 放哪里有讲究"是自然的后续)。
相关工作与启发¶
- vs 平均场理论 (Schoenholz 2016 / Poole 2016 / Hayou 2019):这些工作只讲"梯度稳定性/可训练性",本文证明其相图上的每个点都对应一个 IGB 偏见强度,从而给 EOC 赋予了"偏见"含义,并修正了它们对 ReLU 相图的疏漏。
- vs IGB 原始工作 (Francazi et al. 2024):原 IGB 限于 \(\sigma_b^2=0\)、单节点激活,且猜测"中立=最快";本文把它推广到非零偏置与多节点激活,并用 MF 的梯度稳定性证伪了中立最优的猜测。
- vs NTK / Tensor Program (Yang & Hu 2021):这些是 MF 在特征学习/超参迁移上的延伸,本文与之互补——不研究宽度迁移,而是用数据随机性这一新维度重解相图。
- vs 类不平衡学习动力学 (Francazi et al. 2023):本文揭示的"按类梯度失衡"为该工作中观察到的类不平衡训练困难提供了初始化层面的机理解释。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把两套独立初始化理论证明为等价,并推出"最优=最偏见"的反直觉命题,概念贡献突出。
- 实验充分度: ⭐⭐⭐⭐ 跨 MLP/残差MLP/ViT、二分类与多分类、合成与真实数据验证理论,作为理论论文足够;但偏理想化架构。
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰、相图与定理对应明确;符号体系较重,需要一定背景。
- 价值: ⭐⭐⭐⭐ 统一视角 + 可操作的 EOC 调参建议 + 对评测/调参偏差的警示,对初始化理论与实践都有参考价值。