ICLR 2026 学习理论神经网络初始化平均场理论初始猜测偏见(IGB) 混沌边缘(EOC) 可训练性梯度消失/爆炸

When Bias Meets Trainability: Connecting Theories of Initialization¶

会议: ICLR 2026
论文: When Bias Meets Trainability: Connecting Theories of Initialization
代码: https://github.com/abassi98/igb_and_trainability
领域: 学习理论 / 神经网络初始化
关键词: 平均场理论, 初始猜测偏见(IGB), 混沌边缘(EOC), 可训练性, 梯度消失/爆炸

一句话总结¶

本文证明了刻画随机初始化宽网络的两套独立理论——分析梯度稳定性/可训练性的平均场理论(Mean-Field, MF)和分析初始预测偏好的初始猜测偏见理论(Initial Guessing Bias, IGB)——其核心量之间存在严格的数学等价，并由此推出一个反直觉结论：使网络最易训练的"混沌边缘"初始化恰恰是最偏见（而非中立）的状态，这种偏见会在训练初期被快速吸收。

研究背景与动机¶

领域现状：理解深网络在"还没见数据"时的初始统计性质，是解释其可训练性的关键。围绕这个问题有两条几乎平行的研究线：一条是平均场理论（Schoenholz、Poole、Hayou 等），它在无限宽极限下分析信号与梯度如何随深度传播，给出了著名的"有序相 / 混沌相"相变——有序相梯度指数消失、混沌相梯度爆炸，二者之间的混沌边缘(Edge of Chaos, EOC) 处信号传播深度尺度发散，网络从第一层到最后一层都能被训练，是最佳初始化点。另一条是近期提出的 IGB 理论（Francazi et al. 2024）：一个未训练网络可能对某些类别天生"有偏好"，把输入空间的大片区域都判给同一个类（称为 prejudice，偏见），也可能保持 neutrality（中立）——而这只取决于网络结构和初始化，与数据无关。

现有痛点：这两套理论各说各话。MF 专注"梯度稳不稳、能不能训"，IGB 专注"初始预测偏不偏"，但初始预测偏见对可训练性到底有什么影响，一直不清楚。更糟的是 IGB 原始框架假设偏置方差 \(\sigma_b^2=0\)、只针对单节点激活，且默认"中立初始化学得最快"这一直觉。

核心矛盾：MF 的相图坐标是 \((\sigma_b^2,\sigma_w^2)\)，IGB 的相图坐标是偏见强度 \(\gamma\)，二者用的是完全不同的"随机性平均方式"——MF 固定数据、对权重系综求平均；IGB 固定一次初始化、把整个输入分布灌进网络。两种平均顺序不同，看起来无法直接对接。

本文目标：(1) 在数学上把 MF 与 IGB 的核心量一一对应起来；(2) 用这个对应回答"初始偏见 ↔ 可训练性"的关系；(3) 把 IGB 推广到非零偏置、多节点激活，并修正已有 MF 相图（如 ReLU）的错误。

切入角度：作者注意到两套理论都成立于"无限宽"极限，且都在研究同一组前激活(pre-activation)分布——只是一个看"激活围绕中心的方差"，一个看"中心本身的方差"。如果能证明这两类方差就是同一组量的不同切片，两套理论就能合并。

核心 idea：用一个等价定理把 MF 的信号方差/协方差 \((q_{aa},q_{ab})\) 翻译成 IGB 的"激活漂移比" \(\gamma\)，从而在同一张相图上同时读出"可训练性"和"预测偏见"，并得到结论——最优可训练态(EOC) = 瞬态深度偏见态。

方法详解¶

整体框架¶

论文是纯理论工作，主线是把两套初始化理论"焊"在一起，再用焊好的统一框架重新解读相图、推出反直觉结论、并做实验验证。整体可以理解成三步：先建立 MF↔IGB 的量级等价（Theorem 3.1）→ 用等价把"梯度稳定性(可训练性)"和"预测偏见"映到同一相图上、得出 EOC 是偏见态（Prop 4.1）→ 把框架推广到更一般的网络与激活，并指出按类梯度的不对称后果。

先交代两套理论各自的语言。MF 里，固定数据、对权重求平均，前激活在无限宽下是均值为 0、方差为 \(q_{aa}^{(l)}\) 的 i.i.d. 高斯；不同输入 \(a,b\) 之间的关系用相关系数 \(c_{ab}^{(l)} = q_{ab}^{(l)}/\sqrt{q_{aa}^{(l)} q_{bb}^{(l)}}\) 刻画。有序/混沌的判别量是 \(\chi_1 \equiv \partial c^{(l+1)}_{ab}/\partial c^{(l)}_{ab}\big|_{c=1}\)（无界激活则用 \(\tilde\chi_1\equiv\partial q^{(l+1)}_{ab}/\partial q^{(l)}_{ab}\big|_{c=1}\)）：\(\tilde\chi_1<1\) 梯度消失（有序相），\(\tilde\chi_1>1\) 梯度爆炸（混沌相），\(\tilde\chi_1=1\) 即 EOC。IGB 里，先对数据求平均，每个节点 \(i\) 的前激活变成围绕一个非零中心 \(\mu_i^{(l)}\) 的高斯，中心本身随初始化波动、方差为 \(\sigma_{\mu^{(l)}}^2\)，而激活围绕中心的方差是 \(\sigma_{y^{(l)}}^2\)。偏见强弱用激活漂移比度量：

\[\gamma^{(l)} \equiv \frac{\sigma_{\mu^{(l)}}^2}{\sigma_{y^{(l)}}^2}.\]

\(\gamma\ll 1\) 时各节点中心被噪声淹没、预测中立；\(\gamma\gg 1\) 时中心漂移主导、大量输入被判给同一类（偏见）。临界点 \(\gamma^{(L)}=1\) 处，被判入参考类的输入比例 \(G_0\) 恰好均匀分布于 \((0,1)\)，把"中立"(\(\gamma<1\))和"偏见"(\(\gamma>1\))分开。

关键设计¶

1. MF↔IGB 等价定理：把两套理论的核心量一一对应

这是全文的地基，解决"两种平均方式看似不可对接"的核心矛盾。Theorem 3.1 证明：在均值场区、给定归一化输入（\(q^{(0)}_{aa}=1\)、不同样本 \(q^{(0)}_{ab}=0\)），在无限数据极限下，MF 的两个量恰好就是 IGB 的两类方差：

\[q_{aa}^{(l)} = \sigma_{\mu^{(l)}}^2 + \sigma_{y^{(l)}}^2, \qquad q_{ab}^{(l)} = \sigma_{\mu^{(l)}}^2 \;(a\neq b),\]

并由此得到相关系数与漂移比的直接关系：

\[c_{ab}^{(l)} = \frac{\gamma^{(l)}}{1+\gamma^{(l)}}.\]

这个映射的妙处在于：MF 里 \(q_{aa}, q_{ab}\) 本是随数据 \(D\) 变的随机量，但在"先无限宽、再无限数据"的极限下它们集中到均值、可当确定量处理，于是就等同于 IGB 里的 \(\sigma_y^2,\sigma_\mu^2\)。换句话说，MF 看的"同一输入在不同权重下的方差"和 IGB 看的"不同输入在固定权重下的中心方差"，在极限下描述的是同一组高斯结构的不同切面。这一步比 IGB 原始框架假设更弱（只要求输出近似高斯），却把两套理论彻底打通——MF 相图里的每个点都能翻译成一个 IGB 偏见强度，反之亦然。

2. EOC 是"瞬态深度偏见"而非中立：最优可训练态恰恰最偏见

有了 \(c=\gamma/(1+\gamma)\)，就能把"梯度稳定性"翻译成"偏见强度"，得到本文最反直觉的结论（Prop 4.1）。关键观察是：在有序相和 EOC 上，\(c=1\) 都是稳定不动点，对应 \(\gamma\to\infty\)，即深度偏见(deep prejudice)——网络在初始化时对某一类有极强偏好。但两者动力学截然不同：

有序相（\(\tilde\chi_1<1\)）：梯度指数消失，初始条件被"冻住"，偏见持久不化（persistent-deep prejudice），网络学不动；
EOC（\(\tilde\chi_1=1\)）：梯度稳定，偏见虽强但能在训练初期被快速吸收（transient-deep prejudice），这才是最优可训练态；
混沌相（\(\tilde\chi_1>1\)）：梯度爆炸，训练失败，可能表现为偏见也可能中立。

由此得到 Prop 4.1：从可训练性看，最优初始化(EOC)不是中立态，而是一个瞬态的深度偏见态。这直接推翻了 Francazi et al. (2024) "中立初始化学得最快"的猜测——中立态(\(\gamma<1\))只出现在混沌相、伴随梯度爆炸，实测精度很差。实践上，由于 EOC 往往未知解析解，作者建议：扫不同 \((\sigma_w^2,\sigma_b^2)\)、看哪组初始化梯度在深度上保持稳定，那一点就是 EOC。

3. IGB 框架的推广与 MF 相图修正：从 \(\sigma_b^2=0\)、单节点扩到一般情形

原 IGB 只能处理零偏置、单节点激活，覆盖不了真实网络。本文把 IGB 扩展到非零偏置方差 \(\sigma_b^2\)（这样才能落到 MF 的完整 \((\sigma_b^2,\sigma_w^2)\) 相图上）和多节点激活函数（如 max-pool / average-pool），显著拓宽适用范围。同时修正了前人对 ReLU 相图的疏漏：作者证明对 ReLU，相关系数 \(c^{(l)}\) 在整张相图上都收敛到 1（前人以为不是），即存在持久深度偏见；但两个 MF 相仍能区分——靠的是收敛速率与方差行为：有序相中总信号方差有界、\(\gamma^{(l)}\) 随深度指数发散；混沌相中信号方差发散、\(\gamma^{(l)}\) 按幂律发散。这揭示"持久深度偏见"可经两种机制产生：ordered-deep prejudice（\(\sigma_y^2\to 0\)、总方差有界、梯度消失）与 chaotic-deep prejudice（方差爆炸、梯度爆炸），需要两个独立序参量才能区分。

4. 按类梯度的不对称：偏见让梯度消失/爆炸变成"挑类别"的

统一框架的一个直接后果是：初始偏见使得梯度的消失/爆炸依赖于类别。在无界激活的混沌相，输出分布大幅分离，softmax 几乎把概率全压到某一类（取决于权重初始化），导致交叉熵下被偏好类(favored class)的梯度趋于零、其余类梯度爆炸（Fig. 4）。这意味着"梯度爆炸"通常只牵涉一部分类别，造成按类梯度失衡，会显著拖慢学习；而短跑实验(short runs)评估模型时，残余偏见会系统性地偏袒特定类，使超参调优结论失真——除非跑得足够长、让 IGB 被吸收。

损失函数 / 训练策略¶

本文不引入新损失，沿用标准交叉熵训练。理论结论的实践抓手是初始化超参选取：把权重/偏置方差 \((\sigma_w^2,\sigma_b^2)\) 调到使梯度沿深度稳定（即 EOC），既保证梯度稳定，又让初始偏见被最快吸收，从而缩短超参调优所需的训练步数。

实验关键数据¶

主结果：统一相图与相分类¶

下表（对应原文 Table 1）是核心"结果"——用 IGB 序参量 \(\gamma\) 和 MF 序参量 \(c,\tilde\chi_1\) 同时刻画每个相，把"可训练性"与"预测偏见"并排读出：

IGB (\(\gamma\))	MF (\(c\))	梯度判别 (\(\tilde\chi_1\))	相	可训练性
\(\gamma=\infty\)	\(c=1\)	\(\tilde\chi_1<1\)	Ordered-deep prejudice	梯度消失，偏见持久，学不动
\(\gamma=\infty\)	\(c=1\)	\(\tilde\chi_1=1\)	Transient-deep prejudice (EOC)	梯度稳定，偏见瞬态可吸收，最优
\(\gamma=\infty\)	\(c=1\)	\(\tilde\chi_1>1\)	Chaotic-deep prejudice	梯度爆炸，训练失败
\(1<\gamma<\infty\)	\(0.5<c<1\)	\(\tilde\chi_1>1\)	(chaotic) Prejudice	梯度爆炸
\(\gamma<1\)	\(c<0.5\)	\(\tilde\chi_1>1\)	(chaotic) Neutrality	梯度爆炸，精度差

理论验证（Fig. 2）：宽度 10000、深度 100 的 MLP，IGB 解析曲线（经 \(c=\gamma/(1+\gamma)\) 计算）与 MF 蒙特卡洛的 90% 中心置信区间高度吻合，证实把信号方差/协方差当确定量处理是合理的。ReLU 的相关系数恒收敛到 1（有序相指数收敛、混沌相幂律收敛），Tanh 则在有序相收敛到 1、混沌相收敛到更低值。

训练动力学验证¶

模型 / 设置	任务	关键观察
Tanh MLP	binarized Fashion-MNIST / CIFAR10	EOC 对应初始最大偏见态，但偏见在训练初期被迅速吸收；中立态精度差、学不起来
Vanilla ViT（去掉 BN/LN/skip）	CIFAR10	梯度呈现与 MLP 相同的相变行为，验证结论不限于 MLP
大型 ViT（ImageNet 预训练）微调	CIFAR100	原始未缩放权重=弱 IGB、训练最优；权重 \(\times\sigma_w^2{=}0.5\) 触发强 IGB；\(\times 1.5\) 削弱 IGB 但梯度不稳、反而拖慢训练

关键发现¶

EOC = 最快学 + 最偏见：Fig. 5 显示 EOC 同时是"学习动力学最快"和"初始最大分类偏见"的状态，二者并不矛盾——偏见是瞬态的，会被快速吸收。
中立初始化是低效的：与旧直觉相反，中立态只出现在混沌相、伴随梯度爆炸，无法取得高精度。
残差/归一化会抹掉相区分：残差 MLP 只有单一临界相（最优学习），所以验证 ViT 时要去掉 BN/LN/skip 才能看到清晰相变；这反过来解释了为何现代架构"天生好训"。
按类梯度失衡：混沌深度偏见相里，被偏好类梯度数值为零、其余类爆炸（Fig. 4），对学习速度和质量有显著影响。

亮点与洞察¶

两套理论的"罗塞塔石碑"：用一个等价定理把研究"能不能训"的 MF 和研究"偏不偏"的 IGB 翻译成同一种语言（\(c=\gamma/(1+\gamma)\)），这种"把两个看似无关框架证明为同一事物"的工作往往最有解释力。
反直觉但可证的结论：把"最优初始化必然带偏见"从直觉猜测变成有相图支撑的命题，纠正了"中立=最优"的常识，这是可直接指导初始化设计的洞察。
可迁移的实践 trick：把 \((\sigma_w^2,\sigma_b^2)\) 调到梯度沿深度稳定即 EOC，能同时拿到稳定性和最快的偏见吸收，从而缩短超参调优 run——这对算力敏感的调参很实用。
"短跑评估有偏"的警示：解释了为何用很短的训练步评估模型会系统性偏袒某些类——残余 IGB 还没被吸收，这条对评测设计有直接启发。

局限与展望¶

无限宽 + 无限深 + 无限数据的极限假设：全部结论建立在"先宽、再数据、再深"的极限顺序与输出高斯假设上，有限宽/有限深的真实网络偏离多大未充分量化（⚠️ 具体边界以原文为准）。
架构覆盖偏理想：清晰相变要靠去掉 BN/LN/skip 的"vanilla"网络才能观察，而现代主流架构恰恰都带这些组件、往往只剩单一临界相，理论对它们的直接指导被作者自己指出会被归一化"模糊化"。
偏置/数据分布假设：输入设为标准高斯 i.i.d.、类间同分布，对结构化真实数据的外推需谨慎。
改进方向：把"初始化偏见的再吸收条件"做成可操作的诊断/初始化算法，以及研究归一化层究竟如何改变相图（作者引用的 Francazi et al. 2025 "norm 放哪里有讲究"是自然的后续）。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把两套独立初始化理论证明为等价，并推出"最优=最偏见"的反直觉命题，概念贡献突出。
实验充分度: ⭐⭐⭐⭐ 跨 MLP/残差MLP/ViT、二分类与多分类、合成与真实数据验证理论，作为理论论文足够；但偏理想化架构。
写作质量: ⭐⭐⭐⭐ 逻辑清晰、相图与定理对应明确；符号体系较重，需要一定背景。
价值: ⭐⭐⭐⭐ 统一视角 + 可操作的 EOC 调参建议 + 对评测/调参偏差的警示，对初始化理论与实践都有参考价值。