SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures¶
会议: NeurIPS 2025
arXiv: 2505.09572
代码: GitHub
领域: 深度学习理论 / 优化理论
关键词: 梯度流, o-minimal 结构, 发散现象, SAD 激活函数, 渐近最优性
一句话总结¶
利用 o-minimal 结构的数学工具,证明了使用常见光滑激活函数(sigmoid、tanh、softplus、GELU 等)的全连接网络的梯度流存在二元性:要么收敛到临界点,要么发散到无穷大且损失收敛到渐近临界值。特别地,对多项式目标函数,证明了损失无法精确取零但可任意接近零,从而导致参数必然发散。
研究背景与动机¶
深度学习实践中,梯度优化方法常能达到接近零的训练损失,但理论上对非凸损失景观的收敛性理解仍不充分。核心问题是:
在什么条件下梯度流收敛到一个好的局部最小值?
现有理论多依赖强假设:凸性、过参数化、特定初始化、Łojasiewicz 不等式等,且几乎都隐含或显式假设参数轨迹有界。然而,越来越多的工作表明这一假设并不总成立——最简单的例子就是带 logistic 激活的线性分类器参数会发散到无穷。
本文的动机是弥合这一差距:放弃有界性假设,直接分析梯度流在无界情况下的行为。作者注意到一个关键的数学结构——神经网络训练中出现的函数都可以在 o-minimal 结构中"定义",这赋予了它们强大的有限性和刚性。
方法详解¶
整体框架¶
本文有两个层次的结果: 1. 通用二元性定理(Theorem 2.8):适用于所有 \(C^1\) 可定义激活函数的梯度流 2. 多项式目标的发散定理(Corollary 3.6):对 SAD 激活函数和多项式目标函数的特化
关键设计¶
- O-minimal 结构的应用:O-minimal 结构是数学模型论中的概念,直觉上指可以用一阶逻辑和"良好操作"(加减乘除、指数、对数、导数、反导数)定义的集合/函数。关键性质是 \(\mathcal{S}_1\) 中的集合仅为有限个点和区间的并——这赋予了极强的有限性保证。
常见激活函数都是 Pfaffian 函数(偏导数是自身和多项式的复合),而 Wilkie (1999) 证明所有 Pfaffian 函数生成的结构是 o-minimal 的。这涵盖了 sigmoid、tanh、softplus、swish、GELU、Mish、ELU、softsign 等。
-
二元性定理(Theorem 2.8):对于 \(C^1\) 可定义的激活函数和损失函数,梯度流 \(\Theta'(t) = -\nabla\mathcal{L}(\Theta(t))\) 有唯一全局解,且恰好满足以下之一:
- (a) \(\lim_{t\to\infty}\Theta(t)\) 存在且为临界点
- (b) \(\lim_{t\to\infty}\|\Theta(t)\|=\infty\) 且 \(\lim_{t\to\infty}\mathcal{L}(\Theta(t))\) 为渐近临界值
关键推论:存在 \(\varepsilon > 0\) 使得任何损失初始值在最优值 \(+\varepsilon\) 以内的梯度流最终损失都收敛到最优值。这一"吸引阈值"在深度学习文献中似乎未被注意到。
-
SAD(Sublinear Analytic Definable)激活函数类:定义三个性质:
- (S) 次线性:\(\limsup_{t\to\infty}\|f(tx)\|/t < \infty\)
- (A) 解析性:\(f\) 是解析函数
- (D) 可定义性:\(f\) 在某个 o-minimal 结构中可定义
sigmoid、tanh、softplus、swish、GELU、Mish 都是 SAD。ReLU 满足 (S)(D) 但不满足 (A)。SAD 函数具有良好的永久性:SAD 激活构成的神经网络仍然是 SAD。
-
多项式目标函数的不可精确表示性(Theorem 3.4):对任何 \(\deg(f)\geq 2\) 的多项式目标、SAD 激活和足够大的架构/数据集,证明 \(\mathcal{L}(\theta) > 0\) 对所有 \(\theta\) 成立。核心论证:
- SAD 网络的次线性性阻止它在全局上等同于 \(\geq 2\) 次多项式
- 解析性和可定义性提供足够的"刚性"来在有限数据上检测这一性质
- 但解析性保证有足够的非平凡 Taylor 系数,允许任意好的近似(Theorem 3.5:\(\inf_\theta \mathcal{L}(\theta) = 0\))
结合二元性定理:损失不能为零 + 可以任意接近零 → 最优值只能渐近实现 → 梯度流必然发散。
损失函数 / 优化设置¶
理论适用于经验损失(有限数据集)和连续分布上的期望损失(紧支撑密度函数)。覆盖的损失函数包括均方误差、二元交叉熵、Huber 损失等所有 \(C^1\) 可定义损失。
实验关键数据¶
多项式目标函数实验¶
| 维度 | 激活函数 | 优化器 | 损失→0 | 参数范数→∞ |
|---|---|---|---|---|
| 1D | sigmoid/tanh/softplus/swish/GELU | GD | ✓ | ✓(缓慢) |
| 2D | 同上 | GD | ✓ | ✓ |
| 4D | 同上 | GD | ✓ | ✓ |
| 1D | 同上 | Adam | ✓ | ✓(更快) |
| 2D | 同上 | Adam | ✓ | ✓ |
| 4D | 同上 | Adam | ✓ | ✓ |
复杂任务扩展实验¶
| 任务 | 激活 | 损失下降 | 参数增长 | 说明 |
|---|---|---|---|---|
| Heat PDE | GELU | ✓ | ✓ | Deep Kolmogorov 方法 |
| Black-Scholes PDE | GELU | ✓ | ✓ | 同上 |
| MNIST 分类 | GELU | ✓ | ✓ | 交叉熵损失 |
消融观察¶
| 对比 | 参数增长速度 | 损失收敛速度 |
|---|---|---|
| GD vs Adam | Adam 增长快得多 | Adam 收敛快得多 |
| 理论预测 \(O(\sqrt{t})\) | 实际观察更接近对数增长 | 与 Lyu & Li 的对数结果一致 |
关键发现¶
- 梯度下降的参数增长非常缓慢(看起来像对数增长),这解释了实践中为何通常"感觉"参数有界
- Adam 由于自适应步长能维持更大的更新幅度,参数增长更明显
- 发散现象不限于多项式目标,在 PDE 求解和 MNIST 分类中同样观察到
亮点与洞察¶
- 将数理逻辑(o-minimal 理论)引入深度学习:这是一个非常不寻常的跨领域连接。o-minimal 结构的"有限性定理"和"均匀有限性定理"是关键技术工具
- SAD 函数类的定义优雅且实用:精炼出次线性+解析+可定义三个性质,具有良好的封闭性,为未来光滑网络的理论研究提供便利框架
- "吸引阈值" \(\varepsilon\) 的存在(Theorem 2.8(v)):这意味着足够好的初始化必然导致损失收敛到最优值,不需要额外的收敛条件——这是一个之前被忽视的结果
- ReLU 的特殊性:理论明确指出 ReLU 不满足发散结论——浅层 ReLU 网络对多项式目标存在全局最小值。这解释了不同激活函数行为的根本差异
局限与展望¶
- 仅适用于梯度流(连续时间),目前方法无法直接推广到(随机)梯度下降:关键障碍是缺乏对 Hessian 的控制
- 数值实验相对有限,主要作为概念验证
- 要求激活函数至少 \(C^1\)(部分结果需解析性),不适用于 ReLU
- L2 正则化或 weight decay(如 AdamW)会阻止发散——这意味着实践中这种现象可能较少出现
- 参数发散的方向性收敛(directional convergence)在基于指数函数的 o-minimal 结构中仍是开放问题
相关工作与启发¶
- Lyu & Li (2020)、Vardi et al. (2022) 的齐次网络发散结果是特例,本文提供了统一视角
- Kurdyka 的 Łojasiewicz 不等式在有界情况下保证收敛是经典结果;本文扩展到无界情况
- 对参数范数研究(implicit bias、weight norm 增长)有理论支撑意义
- 启发:实践中使用 weight decay 的一个合理性解释——它阻止了理论上必然的参数发散
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ o-minimal 结构在深度学习中的系统应用极具原创性
- 实验充分度: ⭐⭐⭐ 实验主要是概念验证,规模和多样性有限
- 写作质量: ⭐⭐⭐⭐ 数学严谨,但对不熟悉模型论的读者门槛较高
- 价值: ⭐⭐⭐⭐ 提供了理解梯度动力学的新理论视角,SAD 框架有后续研究价值