跳转至

Conservation Laws for Modern Neural Architectures

会议: ICML2026
arXiv: 2606.17816
代码: 待确认
领域: 优化理论 / 隐式偏置
关键词: 守恒律, 梯度流, 隐式偏置, 注意力机制, RoPE, MoE

一句话总结

这篇论文把"刻画训练动力学中所有守恒量"的问题重述为求解一个与数据无关的偏微分方程,并借助复分析里的亚纯延拓技巧,第一次给出了 GELU/SiLU/SwiGLU 前馈网、多头注意力(含正弦 PE 与 RoPE)、以及各种门控的 MoE 的完整守恒律清单,顺手解决了 Marcotte et al. (2025) 留下的多头注意力开放问题。

研究背景与动机

领域现状:守恒律(conservation law)指的是沿优化轨迹保持不变的量。在梯度流 \(\dot\theta(t)=-\nabla L_{\mathcal D}(\theta(t))\) 下,这类不变量暴露了架构与优化算法共同施加的几何约束,是理解过参数化模型"隐式偏置"的一把钥匙——它解释了为什么从初始化到收敛某些性质始终被保持,也被用于分析收敛性、稳定性,甚至被反过来用来设计加速训练的优化器。

现有痛点:虽然人们零散地发现了不少守恒量,但完整性结果(证明"这些就是全部")极其稀少。Marcotte et al. (2023/2024/2025) 用李代数框架把浅层线性网、ReLU 网、ICNN、NMF、ResNet 乃至单头注意力的守恒律刻画清楚了,但对多头注意力只找到了若干守恒量、无法证明已穷尽,作者明确把它列为开放问题。而现代大模型早已不用 ReLU 和单头注意力——它们用 GELU/SiLU/SwiGLU、用 RoPE、用稀疏 MoE,这些组件的守恒律几乎是空白。

核心矛盾:原有的李代数机器对"非多项式、含位置依赖、含门控路由"的现代算子并不顺手;多头注意力里每个头的 \(Q_i^\top Q_i-K_i^\top K_i\) 看似是守恒量,但要证明再没有别的不变量,需要一套能处理超越函数和不连续路由的新工具。

本文目标:对现代深度学习里反复出现的关键构件,给出守恒律的完整刻画(不仅找到,还要证明穷尽),并附严格证明与实验验证。

切入角度:作者不再套用李代数,而是回到第一性原理问"刻画所有守恒律到底意味着什么"——答案是:求解一个把输入 \(x\) 消掉之后、只约束 \(h\) 本身的偏微分方程。

核心 idea:守恒律 \(h\) 的梯度必须正交于每个 \(\nabla_\theta f_i(x;\theta)\);把这个含 \(x\) 的条件通过复分析"延拓—消元"变成与 \(x\) 无关的 PDE 约束,再读出 PDE 的特征不变量,就能枚举出全部守恒律。

方法详解

整体框架

整篇论文是一条"先建统一判据,再用一套证明引擎逐架构推导"的理论流水线。出发点是 Marcotte 等人给出的正交性判据:在"守恒律须对任意数据集成立 + 损失满足 \(\mathcal V_\ell=\mathbb R^{d_\text{out}}\)"的假设下,\(C^1\) 函数 \(h\) 是守恒律当且仅当对所有 \(i\in[d_\text{out}]\)\(\theta\)\(x\) 都有

\[\langle\nabla_\theta h(\theta),\,\nabla_\theta f_i(x;\theta)\rangle=0.\]

难点在于这个条件显式依赖输入 \(x\),而 \(h\) 只定义在参数空间上。作者的整体策略是:把上式看成关于 \(x\) 的函数,想办法把 \(x\) 消掉,得到一组只约束 \(\nabla_\theta h\) 的偏微分方程,再解出特征不变量。论文用一个玩具模型 \(f(x;a,b)=abx\) 演示了全流程——约束化简成 \(b\,\partial_a h+a\,\partial_b h=0\),沿特征曲线发现 \(a^2-b^2\) 是不变量,于是 \(h\)\(\{a^2-b^2=c\}\) 的每个连通分支上为常数。后面四节就是把这套"归约到 PDE → 读出不变量"的方法分别用到 FFN、MHA、RoPE-MHA、MoE 上。整个方法是纯机制推导,没有可串成 pipeline 的多模块结构,因此不配框架图。

关键设计

1. 把"刻画所有守恒律"归约为偏微分方程:回到第一性原理替代李代数机器

痛点是李代数框架在处理现代算子时既不直观也难推广。作者改用一个更朴素的视角:正交性判据 \(\langle\nabla_\theta h,\nabla_\theta f_i(x;\theta)\rangle=0\) 对所有 \(x\) 成立,本质上要求把"对 \(x\) 的依赖"消成"对 \(h\) 的约束"。由于 \(h\) 不含 \(x\),这些约束自然落到 \(\nabla_\theta h\) 的各分量之间,形成一阶 PDE 系统。判据是否"成功"以能否把条件化简成\(x\) 无关、且足以完全确定 \(h\) 的条件为准。玩具例子里 \(a^2-b^2\) 就是这样被读出来的特征不变量。这个视角的好处是:不变量不再靠猜,而是 PDE 特征曲线的守恒量,因此能保证"穷尽"。

2. 亚纯延拓 + identity theorem + 极点阶数比较:消去输入依赖的证明引擎

这是全文证明能跑通的核心机关。对固定的 \(\theta,i\),定义 \(F_i(x;\theta)\coloneqq\langle\nabla_\theta h,\nabla_\theta f_i(x;\theta)\rangle\)。对 FFN、MHA、dense MoE 这些算子,\(f_i(\cdot;\theta)\)亚纯(meromorphic)的,于是 \(F_i\) 也是亚纯函数,可以延拓到复平面。把输入限制成 \(x=t e_j\)\(t\) 在实轴一段开区间上取值),由复分析的 identity theorem——一个在带聚点集合上取零的亚纯函数必恒为零——可知 \(F_i\) 沿这些子空间恒等于零,从而得到与输入无关的约束。再分析 \(F_i\) 各亚纯分量的极点结构:若一组亚纯函数的线性组合恒为零,比较极点阶数会强迫主极点对应的系数为零,反复施用就逐条逼出 \(\nabla_\theta h\) 必须满足的等式。SMoE 的 Top-\(k\) 路由会在激活专家集合切换的边界引入不连续,需要额外论证把不同激活区域连起来(这也是为何 Theorem 4.6 要求 \(k>1\):连通性才能强迫各专家门控梯度一致)。

3. 现代架构的完整守恒律清单:逐个算子读出不变量

把上面两件事落到具体架构,就得到本文的主结果(均为"完整刻画",即证明再无其他守恒律)。带 GELU 或 SiLU 的单隐层 FFN \(f=A\cdot\text{act}(Bx)\) 没有非平凡守恒律,所有守恒律都是常数——这本身有点反直觉。SwiGLU 因为有 \(A\)\(C\) 的乘性交互,反而产生非平凡不变量 \(\lVert A_{:,i}\rVert^2-\lVert C_{i,:}\rVert^2\)。多头注意力(无 PE)确证了 Marcotte 等人的猜想:守恒律完全由 \(Q_i^\top Q_i-K_i^\top K_i\)\(V_i^\top V_i-O_i^\top O_i\) 刻画——这正是被悬置的开放问题。正弦 PE 只是对输入做了一个双射平移、不改变 MHA 内部结构,所以守恒律与 vanilla 相同;RoPE 则因位置旋转 \(Q_iR_{p-q}K_i^\top\) 把位置耦合进打分,实质改变了不变量结构,变成逐 \(2\times2\) 块的 \(\lVert Q_i^{(j)}\rVert_F^2-\lVert K_i^{(j)}\rVert_F^2\)(值-输出对仍保持 \(V_i^\top V_i-O_i^\top O_i\))。MoE 的不变量"局部化"在每个专家上(沿用 SwiGLU 的结论),外加一个来自门控的整体不变量 \(\sum_{i}W_i\);而且 dense、sparse(\(k>1\))、softmax 门控、归一化 sigmoid 门控四种变体守恒律完全一致

各架构的不变量汇总如下:

架构 完整守恒不变量
FFN(GELU / SiLU) 无非平凡守恒律(\(h\) 只能是常数)
FFN(SwiGLU) \(\lVert A_{:,i}\rVert^2-\lVert C_{i,:}\rVert^2,\ i\in[d_1]\)
MHA(无 PE / 正弦 PE) \(Q_i^\top Q_i-K_i^\top K_i\)\(V_i^\top V_i-O_i^\top O_i\)\(i\in[n]\)
MHA + RoPE \(\lVert Q_i^{(j)}\rVert_F^2-\lVert K_i^{(j)}\rVert_F^2\)(逐块 \(i,j\)),\(V_i^\top V_i-O_i^\top O_i\)
MoE(dense / sparse \(k>1\) / sigmoid 门控) 各专家的 SwiGLU 不变量 + 门控 \(\sum_{i=1}^n W_i\)

损失函数 / 训练策略

本文是理论刻画,不训练新模型。守恒律的成立前提是欧氏梯度流 ODE,并采用 Marcotte et al. (2025) 的结论:带不带权重衰减,守恒函数是对应的,因此分析中省略权重衰减、只看纯梯度流。实验侧用真实离散优化(见下)验证理论。

实验关键数据

主实验

实验目的不是刷指标,而是验证"连续梯度流里的守恒量在离散 SGD 下还近似守恒吗"。理论给出的误差界(基于 Marcotte et al. 2025 的 Proposition 5.1,假设 Hessian 与梯度期望有界)是:

\[\mathbb E\,\big|h(\theta_k)-h(\theta_0)\big|\le\frac{C_hC_L}{2}\sum_{i=0}^{k-1}\tau_i^2.\]

由此推出两种步长策略下守恒误差截然不同的行为:

步长策略 守恒误差界 含义
常数步长 \(\tau_k=\tau\) \(\mathcal O(\tau^2 k)\),随迭代线性增长 离散化误差逐步累积,但增速可控
衰减步长 \(\tau_k=\tau_0/(k+1)\) \(\mathcal O(\tau_0^2)\),一致有界 保证 SGD 收敛时,守恒律近似始终保持

作者在语言建模(Qwen-3 架构 + WikiText-103 / Penn Treebank,含 RoPE、dense/sparse MoE、softmax 与归一化 sigmoid 门控)和视觉(ViT + CIFAR-10 / ImageNet-1K,含绝对 PE 与 SwiGLU)两域上验证。每个配置用 10 个随机种子独立训练,按块级相对偏差监控守恒误差:

\[\epsilon_\text{block}(k)=\frac1N\sum_{i=1}^N\frac{\lVert h_i(\theta_k)-h_i(\theta_0)\rVert_2}{\lVert h_i(\theta_0)\rVert_2}.\]

消融实验

监控对象 现象 说明
FFN / MHA / RoPE / MoE 门控的守恒量 误差随学习率增大而增大,且随迭代温和增长 \(\mathcal O(\tau^2 k)\) 的理论预测一致
非守恒量(baseline) 参数微小变化即出现大幅漂移 作为定性对照,凸显守恒量演化被严格约束

关键发现

  • 守恒误差的量级随学习率放大,跨 MHA、SwiGLU FFN、RoPE、MoE 门控四类组件都吻合 \(\mathcal O(\tau^2 k)\) 的标度,说明理论不变量在真实离散训练中确实近似守恒。
  • 对照的非守恒量在同样训练下大幅波动,从反面证明被识别出的量"守恒"不是平凡现象。
  • 证明框架的边界很清楚:层归一化引入的 \(\sqrt{x}\)、注意力层堆叠产生的 \(e^{1/x}\) 这类含分支点或本质奇点的函数没有全平面亚纯延拓,现有引擎不能直接处理——这既是诚实的局限交代,也指出了后续方向。

亮点与洞察

  • 把"找守恒量"变成"解 PDE":最漂亮的一步是用复分析的 identity theorem 把含输入 \(x\) 的无穷多约束塌缩成有限的 PDE 约束,从而能证明"穷尽"而不仅是"找到"——这是完整性结果稀少的根本难点所在。
  • GELU/SiLU 没有非平凡守恒律、SwiGLU 却有:差别只在 SwiGLU 多了一条 \(C\) 路径带来的乘性交互,提示"门控/乘性结构"才是非平凡隐式偏置的来源,这个对比很有启发。
  • RoPE 与正弦 PE 的本质差异被量化:正弦 PE 只是双射平移、守恒结构不变;RoPE 把位置旋转耦合进打分,不变量从整矩阵层面降到逐 \(2\times2\) 块层面——这把"RoPE 不只是换了个位置编码"讲清楚了。
  • 这套"亚纯延拓 + 极点阶数比较"的证明范式可迁移到其他亚纯算子的隐式偏置分析,是可复用的技术资产。

局限与展望

  • 作者承认框架不能直接处理含 \(\sqrt{x}\)(层归一化)或 \(e^{1/x}\)(多层注意力复合)的算子,因为它们有分支点/本质奇点、无全平面亚纯延拓;需要把 \(F_i\) 只延拓到 \(\mathbb C^d\) 的合适区域来改进。
  • 守恒律基于欧氏梯度流的连续时间理想化;离散 SGD 下只是"近似守恒",常数步长会线性累积误差,真实大模型训练(含动量、自适应优化器、各种正则)下的偏离程度还需更多验证。
  • FFN 分析限制在单隐层;多层堆叠的守恒律刻画仍未解决。
  • 改进思路:把奇点分析做得更精细以覆盖 LayerNorm 与深层 Transformer,是把该框架推向"整网"刻画的关键一步。

相关工作与启发

  • vs Marcotte et al. (2023/2024):他们用李代数框架刻画浅层线性/ReLU 网、ICNN、NMF、动量动力学;本文改用复分析的 PDE 归约,覆盖到 GELU/SiLU/SwiGLU、多头注意力、RoPE、MoE 等现代组件,方法论上更适配非多项式与门控结构。
  • vs Marcotte et al. (2025):他们把框架推到 ResNet 与 Transformer,但注意力只做到单头、明确把多头列为开放问题;本文证明了多头注意力守恒律由 \(Q_i^\top Q_i-K_i^\top K_i\)\(V_i^\top V_i-O_i^\top O_i\) 完全刻画,直接解决该开放问题,并进一步给出 RoPE 与各类 MoE 门控的结果。
  • vs Kunin et al. (2021) / Zhang et al. (2025) 等:这些工作发现了不少具体守恒量但缺完整性证明;本文的价值在于"穷尽性"——证明所列不变量就是全部。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 用复分析归约把守恒律刻画推广到现代架构并保证完整性,思路新颖且解决了公开难题。
  • 实验充分度: ⭐⭐⭐⭐ 跨语言/视觉、多架构、多种子验证守恒误差标度,作为理论论文的实证已较充分;但缺真实大规模训练下的偏离量化。
  • 写作质量: ⭐⭐⭐⭐⭐ 用玩具例子搭直觉、定理与证明草图层次清晰,局限交代诚实。
  • 价值: ⭐⭐⭐⭐ 为现代架构隐式偏置研究提供可复用工具与完整结论,理论价值高、直接应用偏间接。