Inverse Depth Scaling From Most Layers Being Similar¶
会议: ICML2026
arXiv: 2602.05970
代码: https://github.com/liuyz0/DepthScaling
领域: LLM 预训练 / Neural Scaling Laws
关键词: 深度 scaling、ensemble averaging、残差网络、Chinchilla、宽深权衡
一句话总结¶
本文通过对 LLM 隐藏态动力学的测量 + teacher-student toy model 的对照实验,证明 LLM 的 loss 与深度近似成反比(\(\alpha_\ell \approx 1\)),并将其归因于"绝大多数层在做功能相似的小步更新、通过 ensemble averaging 抵消误差"这一非高效但鲁棒的使用模式。
研究背景与动机¶
领域现状:Neural scaling laws 把 loss 写成参数量 \(N\)、数据量 \(D\) 的幂律 \(L = c_N/N^{\alpha_N} + c_D/D^{\alpha_D} + L_0\)(Kaplan 2020、Chinchilla 2022),但绝大多数工作把 \(N\) 当成一个黑盒子的整数,没区分宽度 \(m\) 和深度 \(\ell\) 各自贡献了什么。
现有痛点:另一条线(Levine 2020、Liu 2025a、Bordelon 2025b)开始把 \(N\) 拆成宽度和深度,但深度对 loss 的具体函数形式仍有三种互相矛盾的理论候选:(i) compositional assembly——每一层学一个抽象层级,loss 取决于数据层级结构;(ii) procedural assembly——残差网络近似 neural ODE,loss 是离散误差的幂律;(iii) ensemble averaging——层像浅子网络的集成,loss 由中心极限定理产生 \(1/\ell\) 量级。经验侧(Gromov、Sanyal、Men 等)反复发现 LLM 大量层冗余、可删可换,但都缺一个把"为什么冗余"和"loss 怎么随深度走"连起来的定量框架。
核心矛盾:理论上有三个候选机制都能产生幂律,经验上又只看到"层冗余"这种定性描述,没人把 LLM 真实的 \(\alpha_\ell\) 测出来、再对应到具体机制。
本文目标:分两步——先在真实 LLM 上量出深度专属的 loss 项及其指数 \(\alpha_\ell\);再设计一个能可控切换机制的 toy model,把测到的指数 + 隐藏态特征对应回三个机制中的某一个。
切入角度:作者注意到三种机制对隐藏态轨迹的预期签名是不同的——compositional 会出现"早停"(不同输入在不同深度停止更新);procedural 要求邻层更新方向相关(光滑动力学一阶导数存在);ensemble averaging 则预期邻层更新不相关且每层步长 \(\propto 1/\ell\)。这给了一把直接从隐藏态切入区分机制的尺子。
核心 idea:用隐藏态相邻层夹角 \(\theta(h_l, h_{l+1})\) 和增量相关性 \(\theta(\Delta h_l, \Delta h_{l+1})\) 当探针,配合 teacher-student toy model 中"权重绑定 vs 独立"切换 procedural/ensemble 两种 ground truth,把 LLM 实测信号匹配回机制——结论是 LLM 主要走 ensemble averaging,因此 \(L_\ell \propto 1/\ell\)。
方法详解¶
整体框架¶
方法分成"测 LLM"和"训 toy"两条并行管线,最后做信号对比:
- LLM 侧:在 Pythia-410m 等 Pythia 系列模型上跑 FineWeb,逐 token 逐层算 \(\theta(h_l, h_{l+1})\),再 PCA 聚类区分"中间均匀更新" vs "早停"两类轨迹;同时在 Chinchilla 公开的 ~200 个模型点上拟合带 \(\ell\) 项的分解形式(公式 3)以读出 \(\alpha_\ell\)。
- Toy 侧:构造一个深度为 \(\ell^* = 128\) 的"老师"残差网络生成 KL 目标,让深度 \(\ell \in [6, 48]\) 的"学生"去学。老师权重可选 tied(跨层共享)或 independent(i.i.d. 抽样),分别对应光滑动力学(procedural ground truth)和随机游走式动力学(ensemble ground truth),再加 softmax temperature 控制目标分布尖锐度。
最后把 toy 实验产出的 \(\alpha_\ell\)、隐藏态步长曲线、邻层增量相关性三类签名拿来和 LLM 测出的对应签名做匹配,谁的签名都吻合谁就是 LLM 的真实机制。
关键设计¶
-
深度-宽度分解的 loss 拟合形式:
- 功能:把传统 Chinchilla 形式中的 \(c_N/N^{\alpha_N}\) 项进一步拆成宽度项和深度项,得到 \(L = c_m/m^{\alpha_m} + c_\ell/\ell^{\alpha_\ell} + c_D/D^{\alpha_D} + L_0\),使深度指数 \(\alpha_\ell\) 可被独立识别。
- 核心思路:宽度项捕捉"表征能力受限"的误差,深度项捕捉"变换能力受限"的误差,两者本质独立;跨项被假设为高阶可忽略。用约 200 个 Chinchilla 重建点最小化 \(\log L\) 的 MSE 来同时拟合 7 个自由参数,最终量到 \(\alpha_m = 0.98 \pm 0.08\)、\(\alpha_\ell = 1.2 \pm 0.3\)、\(\alpha_D = 0.30 \pm 0.01\),平均相对误差 0.4%。
- 设计动机:之前理论或只给出 \(\log \ell\) 修正、或给出纯幂律但拟合不上真实数据;本文用一个最少假设的分解直接读出 \(\alpha_\ell\),并顺手验证 \(m \propto \ell\) 的最优宽深关系——刚好让 \(N^{-1/3}\) 对上 Chinchilla 实测的 0.34。
-
隐藏态轨迹的双重探针:
- 功能:用两个量同时区分三种机制——\(\theta(h_l, h_{l+1})\)(步长,区分"早停 vs 均匀"),以及 \(\theta(\Delta h_l, \Delta h_{l+1})\)(增量方向相关性,区分光滑动力学 vs 随机游走)。
- 核心思路:对每个 token 把 \(\ell\) 维的角度向量做 PCA,发现 99.6% 的 token 聚成"中间层均匀更新"一类(与"evenly in the middle" 理想轨迹对齐),只有 0.4%(文档首 token)属于"早停"——直接排除 compositional assembly 主导。再把平均步长 \(\langle \theta \rangle_{\mathcal{D}, l}\) 对深度作图,发现 \(\langle \theta \rangle \propto 1/\ell\),符合 procedural / ensemble 的预期。而邻层增量夹角 \(\theta(\Delta h_l, \Delta h_{l+1})\) 接近 \(\pi/2\),表示邻层更新几乎正交、不存在一阶导数,与光滑动力学(procedural)不符。
- 设计动机:单一签名(如步长)无法区分 procedural 和 ensemble,因为两者都能给出 \(1/\ell\) 步长;加上"邻层相关性"这个二阶签名才能闭环判定,并且这两个量都从 forward pass 直接读出,没有额外训练成本。
-
Teacher-student toy 的双旋钮校准:
- 功能:在一个可解析的最小残差网络中,通过"老师权重绑定 vs 独立"和"目标分布 temperature"两个旋钮,分别把学生稳定推入 procedural 或 ensemble 区,给三种机制建立可对照的 ground-truth 签名库。
- 核心思路:架构是标准残差 + RMSNorm + ReLU² MLP,老师深度 \(\ell^* = 128\) 远大于学生 \(\ell\)。tied 权重让累积变换 \(h_0^* \to h_{\ell^*}^*\) 趋于光滑动力学;independent 权重让其变成随机游走。理论推导(式 10-12)显示:tied + 训练收敛后离散化误差主导,典型 loss \(\propto 1/\ell^3\)(即 \(\alpha_\ell = 3\));independent 下任何层都只能用 \(f^\circ(l/\ell)\) 去拟合整段积分 \(\int_0^1 f^*(s)\,\mathrm{d}s\),每层误差 \(O(1/\ell)\),求和后由 CLT 给出 \(\|\cdot\| \sim 1/\sqrt{\ell}\),loss 平方后正好 \(\propto 1/\ell\)。实验里 tied 权重的 \(\alpha_\ell\) 随训练步从 1 升到 3,independent 权重则稳定在 1 附近——并且独立权重的学生隐藏态在步长曲线、\(1/\ell\) scaling、邻层正交三方面都和 LLM 完全对得上。
- 设计动机:直接在 LLM 上做控制实验代价太高、混杂因素太多;toy 模型把"什么机制对应什么签名"先用闭式实验钉死,再把签名当模板去 match LLM,是一种把"理论候选"翻译成"可证伪经验指纹"的桥梁。
损失函数 / 训练策略¶
Toy 学生用 Adam 训练 40000 步(图 4 中扩到 80000 步),损失是学生与老师输出分布的 KL 散度(等价于 cross-entropy 减常数项,scaling 行为不变)。老师 MLP 权重按标准方案初始化并整体乘 \(1/\sqrt{\ell}\),保证 \(h_0^* \to h_{\ell^*}^*\) 的累积变换为 \(O(1)\);softmax 前对 logits 除以 temperature 控制目标分布尖锐度。LLM 侧不做训练,只在 Pythia 系列预训练 checkpoint 上跑 forward pass 测隐藏态、在 Chinchilla 公开点上做曲线拟合。
实验关键数据¶
主实验:LLM 实测分解 scaling¶
| 拟合项 | 指数 | 含义 |
|---|---|---|
| 宽度 \(\alpha_m\) | \(0.98 \pm 0.08\) | 与 Liu 2025a 理论 \(\approx 1\) 一致 |
| 深度 \(\alpha_\ell\) | \(\mathbf{1.2 \pm 0.3}\) | 本文核心结论:LLM 中 \(L_\ell \approx 1/\ell\) |
| 数据 \(\alpha_D\) | \(0.30 \pm 0.01\) | 与 Chinchilla 原始 \(0.30\) 完全吻合 |
| \(\log L\) 平均相对误差 | 0.4% | 200 个 Chinchilla 点上的拟合质量 |
Toy 模型机制对照实验¶
| 老师权重 | Temperature | 训练步 | 拟合 \(\alpha_\ell\) | 对应机制 |
|---|---|---|---|---|
| Independent (\(\rho = 0\)) | 任意 | 40k | \(\approx 1\) | Ensemble averaging |
| Tied (\(\rho = 1\)) | 高 | 40k | \(\to 3\)(收敛后) | Procedural assembly |
| Tied (\(\rho = 1\)) | 低 | 40k | \(\approx 1\)(未收敛) | 假象——延长训练后升至 3 |
| Tied + 高阶积分架构 | 高 | 80k | \(> 3\) | 验证 procedural 机制 |
关键发现¶
- PCA 把 token 一刀两断:Pythia-410m 上 99.6% 的 token 属于"中间层均匀更新"簇,只有 0.4% 属于"早停"簇且基本都是文档首 token——直接否决了 compositional assembly 作为主导机制。
- 首尾层 vs 中间层不同质:第一层和最后一层的步长 \(\theta \approx \pi/2\) 且与深度无关,像是"做组合";但中间层步长随深度严格按 \(1/\ell\) 下降——主体是 ensemble,而不是组合。
- 邻层增量几乎正交:\(\theta(\Delta h_l, \Delta h_{l+1})\) 接近 \(\pi/2\),光滑动力学(procedural)所需的一阶导数不存在;与之对应,独立权重 toy 的学生也呈现同样的正交签名。
- 训练不充分会冒充 ensemble:低 temperature 下 tied 老师的学生看上去 \(\alpha_\ell \approx 1\),但延长训练后会升到 3——提醒后续工作不能用单一训练步的 scaling 去下机制结论。
- 宽深耦合:\(\alpha_m \approx \alpha_\ell \approx 1\) 自然推出最优 \(m \propto \ell\),组合后参数量 scaling 为 \(N^{-1/3}\),与 Chinchilla 经验 \(0.34\) 一致——给出了"为什么 Chinchilla 指数是这个数"的一种机制级解释。
亮点与洞察¶
- 把"层冗余"这种定性描述钉到定量曲线上:之前 ShortGPT / Layer pruning 系列只说"层可删",本文给出"为什么 loss 还能下降"的精确指数 \(1/\ell\),并指明这是 CLT 在起作用——是从描述性观察走向机制性解释的关键一步。
- PCA + 双探针的诊断范式可迁移:把"邻层夹角 + 邻层增量相关性"当作机制指纹的思路,可以直接拿去诊断别的架构(如 Mamba、recurrent depth、MoE)究竟在哪个机制区间,不需要重新训练或建大量 toy。
- Functional group 视角:作者在 Discussion 用 ROME 的 causal tracing 反推出"层会聚成功能组、组内 ensemble 平均、组间分工"的弱版本组合性——这给"恒等映射友好的残差架构本质上不鼓励组合性"这一更深的批评提供了实验立脚点。
- 架构启示:既然问题出在"残差连接 + 非光滑目标",那"递归深度"(如 Geiping 2025)这种强行让深度多次使用同一组权重的方案,可能就是绕开 \(1/\ell\) 这个慢速 scaling 的关键。
局限与展望¶
- 公式 (3) 的分解形式是"经验 + 理论拼凑出"的工作假设,并非从第一性原理导出;跨项 \(L_{m\ell}\) 等被假设为高阶可忽略,小模型场景下未必成立。
- 三种机制以外的可能机制无法被严格排除;作者只能说"现有三个候选里 ensemble 最匹配",不能说"一定是 ensemble"。
- LLM 侧的隐藏态分析只能统计平均行为,无法在单层粒度告诉你这层到底在算什么;功能组(functional group)的概念虽然有 causal tracing 支持,但尺度和数量都还没量化。
- Toy 模型抛掉了 attention 和 embedding 训练,作者论证 scaling exponent 在 PDE 推广下不变,但跨 token 耦合实际可能带来 cross term。
- 实验只覆盖 Pythia + Chinchilla 这两个家族,MoE / state-space / 训练数据高度结构化(如代码 / 数学)的场景下是否仍是 \(1/\ell\) 主导是开放问题。
- 改进方向:尝试递归深度、深度方向 weight tying、引入显式层级化目标(如 random hierarchy model 的合成数据)等手段,看能否把 \(\alpha_\ell\) 推到 2-3。
相关工作与启发¶
- vs Gromov 2024 / Men 2025 (ShortGPT) / Sanyal 2024:他们经验上发现"层可删、层冗余",本文给同一现象配上定量 scaling \(\alpha_\ell \approx 1\) 和 ensemble averaging 机制解释,把现象升级成预测。
- vs Liu 2025a (Superposition scaling) / Bordelon 2025b:这两篇理论侧首先提出"宽度和深度应分开 scaling",本文给出直接的实证测量和数值匹配(\(\alpha_m \approx 1\) 与 Liu 2025a 预测一致)。
- vs Csordás 2025 ("Do LLMs use depth efficiently?"):他们发现 LLM 没有充分利用数据中的组合结构;本文进一步说明"为什么没利用"——架构偏置 + 目标非光滑迫使网络落入 ensemble 区,并量化了由此带来的低效。
- vs Sander 2022 / Chizat 2025 (residual ↔ ODE):之前用 worst-case 误差界分析残差网络作为 ODE 离散化;本文表明真实 LLM 不在最坏情况,而在 CLT 主导的典型行为区,给前者补上了"什么时候这个理论才适用"的边界。
- vs Lad 2024 ("Stages of inference"):他们划分 inference 阶段的工作可以和本文 Discussion 中的"功能组"图景结合,为下一步定量刻画"组内 ensemble + 组间分工"提供出发点。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次把"层冗余"现象、\(1/\ell\) scaling、ensemble averaging 三件事用一个定量框架串通,并解释了 Chinchilla 指数。
- 实验充分度: ⭐⭐⭐⭐ Chinchilla 拟合 + Pythia 多尺寸隐藏态 + toy 模型 4 旋钮扫描三路证据闭环,但 LLM 侧家族单一、缺现代 dense/MoE 模型验证。
- 写作质量: ⭐⭐⭐⭐⭐ 三机制 → 探针设计 → toy 校准 → LLM 匹配的论证链非常清晰,公式与图表分工到位。
- 价值: ⭐⭐⭐⭐⭐ 为"如何让深度真正有用"提供了可操作的诊断工具和架构方向(递归深度、tying、显式层级化目标),对 LLM 架构演进有直接指导意义。