SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures¶

会议: NeurIPS 2025
arXiv: 2505.09572
代码: GitHub
领域: 深度学习理论 / 优化理论
关键词: 梯度流, o-minimal 结构, 发散现象, SAD 激活函数, 渐近最优性

一句话总结¶

利用 o-minimal 结构的数学工具，证明了使用常见光滑激活函数（sigmoid、tanh、softplus、GELU 等）的全连接网络的梯度流存在二元性：要么收敛到临界点，要么发散到无穷大且损失收敛到渐近临界值。特别地，对多项式目标函数，证明了损失无法精确取零但可任意接近零，从而导致参数必然发散。

研究背景与动机¶

深度学习实践中，梯度优化方法常能达到接近零的训练损失，但理论上对非凸损失景观的收敛性理解仍不充分。核心问题是：

在什么条件下梯度流收敛到一个好的局部最小值？

现有理论多依赖强假设：凸性、过参数化、特定初始化、Łojasiewicz 不等式等，且几乎都隐含或显式假设参数轨迹有界。然而，越来越多的工作表明这一假设并不总成立——最简单的例子就是带 logistic 激活的线性分类器参数会发散到无穷。

本文的动机是弥合这一差距：放弃有界性假设，直接分析梯度流在无界情况下的行为。作者注意到一个关键的数学结构——神经网络训练中出现的函数都可以在 o-minimal 结构中"定义"，这赋予了它们强大的有限性和刚性。

方法详解¶

整体框架¶

本文有两个层次的结果： 1. 通用二元性定理（Theorem 2.8）：适用于所有 \(C^1\) 可定义激活函数的梯度流 2. 多项式目标的发散定理（Corollary 3.6）：对 SAD 激活函数和多项式目标函数的特化

关键设计¶

O-minimal 结构的应用：O-minimal 结构是数学模型论中的概念，直觉上指可以用一阶逻辑和"良好操作"（加减乘除、指数、对数、导数、反导数）定义的集合/函数。关键性质是 \(\mathcal{S}_1\) 中的集合仅为有限个点和区间的并——这赋予了极强的有限性保证。

常见激活函数都是 Pfaffian 函数（偏导数是自身和多项式的复合），而 Wilkie (1999) 证明所有 Pfaffian 函数生成的结构是 o-minimal 的。这涵盖了 sigmoid、tanh、softplus、swish、GELU、Mish、ELU、softsign 等。

二元性定理（Theorem 2.8）：对于 \(C^1\) 可定义的激活函数和损失函数，梯度流 \(\Theta'(t) = -\nabla\mathcal{L}(\Theta(t))\) 有唯一全局解，且恰好满足以下之一：
- (a) \(\lim_{t\to\infty}\Theta(t)\) 存在且为临界点
- (b) \(\lim_{t\to\infty}\|\Theta(t)\|=\infty\) 且 \(\lim_{t\to\infty}\mathcal{L}(\Theta(t))\) 为渐近临界值

关键推论：存在 \(\varepsilon > 0\) 使得任何损失初始值在最优值 \(+\varepsilon\) 以内的梯度流最终损失都收敛到最优值。这一"吸引阈值"在深度学习文献中似乎未被注意到。

SAD（Sublinear Analytic Definable）激活函数类：定义三个性质：
- (S) 次线性：\(\limsup_{t\to\infty}\|f(tx)\|/t < \infty\)
- (A) 解析性：\(f\) 是解析函数
- (D) 可定义性：\(f\) 在某个 o-minimal 结构中可定义

sigmoid、tanh、softplus、swish、GELU、Mish 都是 SAD。ReLU 满足 (S)(D) 但不满足 (A)。SAD 函数具有良好的永久性：SAD 激活构成的神经网络仍然是 SAD。

多项式目标函数的不可精确表示性（Theorem 3.4）：对任何 \(\deg(f)\geq 2\) 的多项式目标、SAD 激活和足够大的架构/数据集，证明 \(\mathcal{L}(\theta) > 0\) 对所有 \(\theta\) 成立。核心论证：
- SAD 网络的次线性性阻止它在全局上等同于 \(\geq 2\) 次多项式
- 解析性和可定义性提供足够的"刚性"来在有限数据上检测这一性质
- 但解析性保证有足够的非平凡 Taylor 系数，允许任意好的近似（Theorem 3.5：\(\inf_\theta \mathcal{L}(\theta) = 0\)）

结合二元性定理：损失不能为零 + 可以任意接近零 → 最优值只能渐近实现 → 梯度流必然发散。

损失函数 / 优化设置¶

理论适用于经验损失（有限数据集）和连续分布上的期望损失（紧支撑密度函数）。覆盖的损失函数包括均方误差、二元交叉熵、Huber 损失等所有 \(C^1\) 可定义损失。

实验关键数据¶

多项式目标函数实验¶

维度	激活函数	优化器	损失→0	参数范数→∞
1D	sigmoid/tanh/softplus/swish/GELU	GD	✓	✓（缓慢）
2D	同上	GD	✓	✓
4D	同上	GD	✓	✓
1D	同上	Adam	✓	✓（更快）
2D	同上	Adam	✓	✓
4D	同上	Adam	✓	✓

复杂任务扩展实验¶

任务	激活	损失下降	参数增长	说明
Heat PDE	GELU	✓	✓	Deep Kolmogorov 方法
Black-Scholes PDE	GELU	✓	✓	同上
MNIST 分类	GELU	✓	✓	交叉熵损失

消融观察¶

对比	参数增长速度	损失收敛速度
GD vs Adam	Adam 增长快得多	Adam 收敛快得多
理论预测 \(O(\sqrt{t})\)	实际观察更接近对数增长	与 Lyu & Li 的对数结果一致

关键发现¶

梯度下降的参数增长非常缓慢（看起来像对数增长），这解释了实践中为何通常"感觉"参数有界
Adam 由于自适应步长能维持更大的更新幅度，参数增长更明显
发散现象不限于多项式目标，在 PDE 求解和 MNIST 分类中同样观察到

亮点与洞察¶

将数理逻辑（o-minimal 理论）引入深度学习：这是一个非常不寻常的跨领域连接。o-minimal 结构的"有限性定理"和"均匀有限性定理"是关键技术工具
SAD 函数类的定义优雅且实用：精炼出次线性+解析+可定义三个性质，具有良好的封闭性，为未来光滑网络的理论研究提供便利框架
"吸引阈值" \(\varepsilon\) 的存在（Theorem 2.8(v)）：这意味着足够好的初始化必然导致损失收敛到最优值，不需要额外的收敛条件——这是一个之前被忽视的结果
ReLU 的特殊性：理论明确指出 ReLU 不满足发散结论——浅层 ReLU 网络对多项式目标存在全局最小值。这解释了不同激活函数行为的根本差异

局限与展望¶

仅适用于梯度流（连续时间），目前方法无法直接推广到（随机）梯度下降：关键障碍是缺乏对 Hessian 的控制
数值实验相对有限，主要作为概念验证
要求激活函数至少 \(C^1\)（部分结果需解析性），不适用于 ReLU
L2 正则化或 weight decay（如 AdamW）会阻止发散——这意味着实践中这种现象可能较少出现
参数发散的方向性收敛（directional convergence）在基于指数函数的 o-minimal 结构中仍是开放问题

评分¶

新颖性: ⭐⭐⭐⭐⭐ o-minimal 结构在深度学习中的系统应用极具原创性
实验充分度: ⭐⭐⭐ 实验主要是概念验证，规模和多样性有限
写作质量: ⭐⭐⭐⭐ 数学严谨，但对不熟悉模型论的读者门槛较高
价值: ⭐⭐⭐⭐ 提供了理解梯度动力学的新理论视角，SAD 框架有后续研究价值