Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules¶

会议: NeurIPS 2025
arXiv: 2509.19189
代码: 无
领域: 优化
关键词: scaling law, 学习率调度, 核回归, loss 动力学, WSD schedule

一句话总结¶

在幂律核回归模型中建立了 Functional Scaling Law (FSL)，通过引入"内在时间"概念统一刻画任意学习率调度下的完整 loss 轨迹，并推导出常数/指数衰减/WSD 三种调度在数据受限和计算受限条件下的显式 scaling 关系，理论解释了 WSD 优于纯衰减的经验现象。

研究背景与动机¶

领域现状：Kaplan 等人发现 LLM 预训练 loss 服从 \(L(M,D) = L_0 + C_M M^{-\alpha_M} + C_D D^{-\alpha_D}\) 的幂律关系，scaling law 已成为指导 LLM 开发的基础原则。理论解释工作主要在核回归/线性回归代理模型上进行。

现有痛点： - 现有理论仅针对终止 loss，未解释完整 loss 轨迹是否也遵循 scaling law - 学习率调度(LRS)的作用未被系统刻画——gradient flow、常数 LR SGD、指数衰减已分别研究，但缺乏统一理论 - WSD (Warmup-Stable-Decay) 调度在实践中（DeepSeek-V3, Kimi-K2）表现优异，但其优势机制不清

核心矛盾：LRS 同时影响信号学习和噪声注入/消散，不同调度策略在这两个效应间的权衡不同，需要统一框架

切入角度：引入"内在时间"\(t = \int_0^\tau \varphi(r) dr\)（学习率累积），将 LRS 的影响从 SDE 的漂移项解耦，仅保留在扩散项中

核心idea：FSL 将 loss 分解为不可约误差 + 近似误差 + 信号学习项 + 噪声卷积项，其中 LRS 仅通过卷积泛函进入最后一项

方法详解¶

整体框架¶

考虑幂律核(PLK)回归模型：\(y = ⟨\boldsymbol{\phi}(\mathbf{x}), \boldsymbol{\theta}^*⟩ + \epsilon\)，特征协方差谱 \(\lambda_j \asymp j^{-\beta}\)（容量指数 \(\beta > 1\)），目标系数衰减 \(|\theta_j^*|^2 \asymp j^{-1}\lambda_j^{s-1}\)（难度指数 \(s > 0\)）。用宽度 \(M\) 的模型通过 one-pass SGD 优化。

关键设计¶

内在时间重参数化:
- 功能：将物理时间 \(\tau\) 按 LRS 重缩放为内在时间 \(t\)
- 核心思路：定义 \(t = T(\tau) = \int_0^\tau \varphi(r) dr\)，变量替换后原始 SDE \(d\bar{\mathbf{v}}_\tau = -\varphi(\tau)\nabla\mathcal{R} d\tau + \varphi\sqrt{h/b \cdot \Sigma} d\mathbf{B}_\tau\) 变为 \(d\boldsymbol{\nu}_t = -\nabla\mathcal{R} dt + \sqrt{\gamma(t)\Sigma} d\mathbf{B}_t\)，其中 \(\gamma(t) = h/(\varphi \cdot b)\) 在内在时间下。LRS 从漂移项完全消失
- 设计动机：内在时间比迭代步数更忠实地反映训练进度，使得信号学习部分与 LRS 无关
Functional Scaling Law (FSL):
- 功能：刻画完整 loss 轨迹而非仅终止 loss
- 核心思路： \(\mathbb{E}[\mathcal{R}(\boldsymbol{\nu}_t)] - \frac{\sigma^2}{2} \asymp M^{-s\beta} + e(t) + \int_0^t \mathcal{K}(t-z)[e(z)+\sigma^2]\gamma(z) dz\) 其中 \(e(t) = (1+t)^{-s}\) 为信号学习项，\(\mathcal{K}(t) = (1+t)^{-(2-1/\beta)}\) 为遗忘核
- 设计动机：四项分别对应不可约误差、近似误差、信号学习、噪声积累/消散。LRS 仅通过卷积进入最后一项
噪声结构分析 (Lemma 4.8):
- 功能：精确刻画梯度噪声的各向异性结构
- 核心思路：\((2\rho_- \mathcal{E}(\mathbf{v}) + \sigma^2)\nabla^2\mathcal{R} \preceq \Sigma(\mathbf{v}) \preceq (2\rho_+ \mathcal{E}(\mathbf{v}) + \sigma^2)\nabla^2\mathcal{R}\)，噪声沿各方向的能量正比于 risk × 该方向曲率
- 设计动机：这一结构使得噪声项可以用 loss 本身来界定，形成自洽的分析
三种 LRS 的显式 scaling:
- 功能：对 constant/exponential-decay/WSD 三种调度推导闭式 scaling 关系
- 核心思路：将 LRS 代入 FSL 的卷积项，分别计算数据受限（固定 \(M\)）和计算受限（\(M\) 与 \(D\) 联合优化）的最优分配
- 设计动机：量化不同 LRS 的 scaling 效率差异，解释 WSD 的经验优势

训练策略¶

模型容量 \(\beta > 1\)，任务难度 \(s > 0\)，相对难度区分 easy (\(s \geq 1-1/\beta\)) vs hard (\(s < 1-1/\beta\))
超收缩性假设(Assumption 2.1)保证四阶矩受二阶矩控制
支持 top-\(M\) 特征选择和 random-\(M\) 特征投影两种设置

实验关键数据¶

三种 LRS 的 Data-Optimal Scaling 对比¶

LRS	Easy regime	Hard regime
Constant	\(D^{-s/(s+1)}\)	\(D^{-s/(s+1)}\)
Exp-decay	\(D^{-s\beta/(1+s\beta)}(\log D)^{s\beta/(1+s\beta)}\)	\(D^{-s}(\log D)^s\)
WSD	\(D^{-s\beta/(1+s\beta)}(\log D)^{(s\beta-s)/(1+s\beta)}\)	\(D^{-s}\)

Compute-Optimal Scaling 对比¶

LRS	Easy regime	Hard regime
Constant	—	\(C^{-s\beta/(1+s\beta+\beta)}\)
Exp-decay	\(C^{-s\beta/(2+s\beta)}(\log C)^{...}\)	\(C^{-s\beta/(1+\beta)}(\log C)^{...}\)
WSD	\(C^{-s\beta/(2+s\beta)}(\log C)^{...}\)	\(C^{-s\beta/(1+\beta)}\)

关键发现¶

WSD > Exp-decay > Constant：WSD 在 hard regime 去除了 \(\log\) 因子，Constant 调度缺少额外 \(\beta\) 因子
高容量模型更高效：固定任务（\(\alpha = s\beta\) 不变），增大 \(\beta\)（降低容量）时 \(s\) 更大，信号学习更快
数据比模型更需扩展：compute-optimal 训练中数据应比模型扩展更多
峰值学习率需与预算匹配：最优峰值 LR 应随训练预算适当缩放
LLM 实验 (0.1B-1B) 验证 FSL 可作为拟合和预测 loss 轨迹的代理模型

亮点与洞察¶

内在时间概念：将 LRS 的影响从信号学习中完全解耦，是实现统一分析的关键创新。这一概念直觉上对应"有效训练步数"
遗忘核的物理直觉：\(\mathcal{K}(t) \asymp t^{-(2-1/\beta)}\) 说明高容量模型（小 \(\beta\)）遗忘注入噪声更慢——解释了为什么大模型需要更仔细的 LRS 设计
WSD 的优势机制：长时间稳定阶段积累足够的信号学习，末尾衰减阶段高效消散累积噪声，两阶段互补
与 Multi-Power-Law 模型的联系：通过分部积分，FSL 可变换为近似等价于 Tissue 等人的 MPL 经验模型

局限与展望¶

分析基于核回归（二次损失），与实际 LLM 的交叉熵损失有差距
连续时间 SDE 近似要求 step size 足够小，实际训练中该条件不一定成立
random-\(M\) 特征的分析仅覆盖 \(s \leq 1\)，对简单任务 \(s > 1\) 的情况未解决
FSL 的 \(\eqsim\)（常数因子）精度在实际拟合中可能不够——LLM 实验需要额外拟合参数

评分¶

新颖性: ⭐⭐⭐⭐⭐ 内在时间概念和 FSL 框架是重要的理论创新，统一了分散的先前工作
实验充分度: ⭐⭐⭐⭐ 核回归数值验证充分，LLM 实验(0.1B-1B)增强实践相关性
写作质量: ⭐⭐⭐⭐⭐ FSL 各项的物理解释极为清晰，理论和实践的桥梁搭建出色
价值: ⭐⭐⭐⭐⭐ 为理解和设计 LLM 学习率调度提供了坚实的理论基础