Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent¶

会议: ICML 2026
arXiv: 2606.04031
代码: 待确认
领域: 优化 / 学习动力学 / 双层优化
关键词: 伪谱, Kreiss 常数, 耦合梯度下降, 双层优化, 双时间尺度

一句话总结¶

本文为 block-triangular Jacobian \(J = \begin{bmatrix} A & 0 \\ C & D \end{bmatrix}\) 的耦合梯度下降建立尖锐的 Kreiss 常数界 \(K(J) \leq 2/(1-\gamma) + \|C\|/(4(1-\gamma))\)，并给出匹配下界——揭示了即使谱半径 < 1，瞬态放大也可能任意大；这套理论作为高维学习动力学的 scaling law，给出 \(O(K(J)^2 \log(1/\delta))\) 的有限时迭代复杂度，并扩展到 nearly self-referential 系统。

研究背景与动机¶

领域现状：耦合梯度下降在现代 ML 无处不在——bilevel optimization（HyperNet、MAML）、two-time-scale stochastic approximation、GAN（generator vs discriminator）等；线性化动力学 \(\begin{bmatrix}x_{t+1} \\ y_{t+1}\end{bmatrix} = J \begin{bmatrix}x_t \\ y_t\end{bmatrix}\)，其中 \(A = I - \alpha \nabla^2_{xx}F, D = I - \beta \nabla^2_{yy}G\)。

现有痛点：（1）当 \(B = 0\)（block-triangular），渐近稳定性只看 \(\rho(A), \rho(D)\)，但即使 \(\rho(A), \rho(D) < 1\)，瞬态 \(\|J^t\|\) 可任意大（非正规矩阵的瞬态放大）；（2）数值线性代数里 Kreiss 定理与伪谱理论已知能刻画瞬态，但优化文献里几乎没用；（3）已有优化分析（IQC 等）给 Lyapunov 证书但不给定量 transient bound；（4）高维学习时 condition number 增长 → \(\gamma \to 1^-\) → \(\|C\|/(1-\gamma)\) 爆炸 → 瞬态放大尤其严重。

核心矛盾：渐近稳定（\(\rho < 1\)）不代表训练过程稳定——瞬态可能数量级地放大；高维学习时这个问题尤甚但被现有分析（只看谱半径）完全忽视。

本文目标：（1）为 block-triangular Jacobian 建立尖锐 Kreiss 常数上下界；（2）刻画临界耦合阈值；（3）扩展到 nearly self-referential（\(B \neq 0\) 但小）系统；（4）给出非渐近的迭代复杂度 scaling law。

切入角度：用伪谱理论 \(\Lambda_\varepsilon(M) = \{z : \|(zI-M)^{-1}\| > 1/\varepsilon\}\) 和 Kreiss 常数 \(K(M) = \sup_{|z|>1}(|z|-1)\|(zI-M)^{-1}\|\)；Kreiss 定理 \(K(M) \leq \sup_t \|M^t\| \leq enK(M)\) 精确控制瞬态放大；对 block-triangular 用 block resolvent 公式拆分，对对称对角块用 \(\|(zI-A)^{-1}\| \leq 1/(r-\gamma)\)，off-diagonal block 贡献 \(\|C\|/(r-\gamma)^2\)。

核心 idea：用 Kreiss 常数把"非正规矩阵的瞬态放大"形式化，对 block-triangular 给出闭式上下界，把这套数值分析工具引入耦合优化的非渐近分析。

方法详解¶

整体框架¶

本文不是一条数据 pipeline，而是一条环环相扣的定理链。把耦合梯度下降在不动点附近线性化成 \(J=\begin{bmatrix} A & B \\ C & D\end{bmatrix}\) 后，论文分四步推进：先在最干净的 \(B=0\)（block-triangular）情形把瞬态放大量化成 Kreiss 常数的闭式上下界（设计 1）；再证明这个界已经榨干了 \((\rho(A),\rho(D),\|C\|)\) 这几个量的全部信息、并刻画出“耦合多大开始危险”的临界红线（设计 2）；接着用 Neumann 级数把结论从严格三角扰动延拓到 \(B\neq 0\) 的近自指系统（设计 3）；最后把 Kreiss 常数翻译成随机情形下达到 \(\delta\) 精度所需的迭代复杂度 scaling law（设计 4）。四步层层递进——从“瞬态有多大”，到“这个界紧不紧、何时失稳”，到“非理想系统还成不成立”，再到“训练要跑多少步”。

关键设计¶

1. Block-triangular Kreiss 上下界（Theorem 4 & 5）：把瞬态放大量化成 \(\gamma\) 和 \(\|C\|\) 的函数

非正规矩阵的麻烦在于谱半径 \(<1\) 也压不住 \(\|J^t\|\)，需要 Kreiss 常数才能刻画瞬态。block-triangular 结构让 resolvent 能整块拆开：

\[(zI-J)^{-1}=\begin{bmatrix}(zI-A)^{-1} & 0 \\ (zI-D)^{-1}C(zI-A)^{-1} & (zI-D)^{-1}\end{bmatrix}.\]

对称的对角块给 \(\|(zI-A)^{-1}\|\le 1/(r-\gamma)\)，off-diagonal 项给 \(\|(zI-D)^{-1}C(zI-A)^{-1}\|\le\|C\|/(r-\gamma)^2\)，再对 \(r>1\) 取优得 \(K(J)\le\sup_r[2(r-1)/(r-\gamma)+(r-1)\|C\|/(r-\gamma)^2]\)。这样分块的好处是把对称分量和非正规分量分开处理、各自有干净的界，且上下界除一个 factor-of-2 gap 外相互匹配，说明这个 bound 本身是 sharp 的，而不是随手放大的上界。

2. Minimax 下界 + 临界耦合阈值（Theorem 7 & 10）：证明本文的界不能本质改进，并给出危险线

光有上界还不够，得说清"只看 \((\rho(A),\rho(D),\|C\|)\) 这几个量到底够不够"。作者构造一族 worst-case Jacobian，使任何只用这几个量的估计器在该族上都至少有 \(\Omega(c/(1-\gamma)^2)\) 的误差，即与真 \(K(J)\) 的距离下界为 \(c/(8(1-\gamma)^2)\)——这条 minimax 下界等于宣告本文的 bound 已经吃干榨净了这些信息，无法本质收紧。与此同时，临界耦合阈值把 \(\|C\|\) 和 \((1-\gamma)^2\) 直接比较，超过阈值系统就从"瞬态放大"滑向"谱不稳定"，给从业者一条可读的设计红线：耦合多大开始危险。

3. Neumann 扰动扩展到 \(B\neq 0\)（Theorem 9）：把结论推广到近自指系统

实际系统多是弱自指（如 GAN 的 generator 也间接看到自己），严格 block-triangular 是理想化。作者把 Jacobian 写成 \(J_\varepsilon=J_0+\varepsilon B_0\)，\(J_0\) 为 block-triangular；只要 \(\varepsilon\|B_0\|K_0<(1-\gamma)\)，Neumann 级数 \((zI-J_\varepsilon)^{-1}=(zI-J_0)^{-1}\sum_k(\varepsilon B_0(zI-J_0)^{-1})^k\) 在 \(|z|>1\) 上一致收敛，于是

\[K(J_\varepsilon)\le \frac{K_0}{1-\varepsilon\|B_0\|K_0/(1-\gamma)}.\]

这让 block-triangular 的全部结论在小耦合下平滑延续到真实的近自指场景，而不是只能用在严格三角的理想情形。

4. Sample-complexity scaling law（Theorem 11）：把 Kreiss 常数翻译成“训练要跑多少步”

前三个设计都在刻画瞬态本身，但从业者最终关心的是“到底要多少步才收敛”。作者把随机版耦合下降（梯度带方差 \(\sigma^2\) 噪声）达到 \(\delta\) 精度的迭代复杂度直接写成 Kreiss 常数的函数：\(T(\delta) = O(K(J)^2 \log(1/\delta)/(1-\gamma)^2)\)。关键在于它是 instance-dependent（依赖具体的 \(J\)）而非 worst-case——这暴露出一个只看谱半径（以为 \(\rho<1\) 就没事）完全看不到的 regime：高维学习时 \(\gamma\to 1\)、\(K(J)\) 可飙到数百，迭代复杂度随之以平方爆炸。这一步把前面纯刻画瞬态的理论真正落到“要花多少计算”的可操作结论上。

实验关键数据¶

线性-二次问题瞬态验证¶

随 \(\|C\|\) 增大，实测 \(\sup_t \|J^t\|\) 与本文 bound \(2/(1-\gamma) + \|C\|/(4(1-\gamma))\) 拟合（论文 Figure 1）；不同 \(\gamma\) 下 bound 都精准追上实测瞬态峰。

vs IQC 比较¶

在同一组耦合 LQ 问题上：

方法	瞬态 bound	紧度
Spectral radius only	仅渐近 (\(\rho < 1\))	完全失效
IQC Lyapunov	\(\geq\) 实测峰 10×	保守
Pseudospectral (本文)	~实测峰 1.5×	紧

IQC 给安全证书但保守 10×；本文 bound 紧 6× 以上。

神经网络训练验证¶

在 GAN 训练上跟踪线性化动力学的 effective \(K(J)\)；本文预测的 "high-K phase = unstable training" 与实测训练崩溃精准对应——给出从动力学谱角度预测训练失败的可用工具。

关键发现¶

瞬态放大是高维学习的真实风险：\(\gamma \to 1\)（高 condition number）下 \(K(J)\) 可达数百，意味着 \(\|J^t\|\) 瞬态可数百倍放大初始误差
block-triangular 结构常见：bilevel optimization（inner-loop 不影响 outer-loop 的 Hessian）天然是 block-triangular
vs IQC 显著紧：本文给量化 transient bound，IQC 只给定性证书
GAN 训练预测：本文 framework 可用作训练崩溃的提前预警

亮点与洞察¶

把 Kreiss 定理 + 伪谱理论引入优化分析：数值线性代数的成熟工具被 ML 长期忽视；本文系统引入并给出 LLM/GAN-scale 后果——开辟新方向
block-triangular 是个被低估的特殊结构：bilevel optimization、TTS approximation 都是；分离 diagonal 对称块 + off-diagonal 让分析极简洁
scaling law 视角：\(T(\delta) = O(K(J)^2 \log(1/\delta)/(1-\gamma)^2)\) 这个 instance-dependent 复杂度暴露了 spectral-radius 分析看不到的 regime
理论严密 + 数值验证：上下界、minimax、临界阈值、扰动扩展、scaling law、实验，论文链条完整

局限性 / 可改进方向¶

factor-of-2 gap 在 leading term 未关闭，bound 是否可进一步收紧 open
对称 \(A, D\) 假设较强，非对称（如带正则化的 GAN）需重新分析
只对 small \(\varepsilon\) 的 self-referential 扩展，强耦合 GAN 等场景仍未覆盖
实验偏 LQ + 玩具 GAN，未在大规模 LLM 训练上验证
scaling law 是 worst-case 形式，可能在 benign instance 上保守

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 Kreiss 定理 + 伪谱引入耦合优化分析是真正全新方向
实验充分度: ⭐⭐⭐⭐ LQ + IQC 对比 + 神经网络验证，但偏 toy；缺大规模 LLM/GAN 验证
写作质量: ⭐⭐⭐⭐⭐ 数学严密，定理链条完整；scaling law framing 很有说服力
价值: ⭐⭐⭐⭐ 对 bilevel、GAN、TTS RL 等社区有理论工具价值；对高维学习动力学理论意义大