A Convergence Analysis of Adaptive Optimizers under Floating-Point Quantization¶

会议: ICLR 2026
arXiv: 2510.21314
代码: 无
领域: 优化
关键词: 低精度训练, Adam, Muon, 浮点量化, 收敛分析

一句话总结¶

本文建立了首个在浮点量化下分析自适应优化器收敛性的理论框架，对梯度、权重和优化器状态（动量、二阶矩）同时施加相对误差量化模型，证明了量化 Adam 和 Muon 在尾数长度仅需对数增长于迭代次数时即可保持与全精度相同的 \(\tilde{O}(T^{-1/4})\) 收敛率，并揭示了 Adam 对权重和二阶矩量化高度敏感而 Muon 更为鲁棒的理论机制。

研究背景与动机¶

大语言模型（LLM）的快速规模扩展使得低精度训练成为降低内存、提高效率的关键技术。BF16、FP8等低精度格式已在实际的万亿 token 级训练中被广泛使用（如 DeepSeek-V3、FP8-LM 等），并且在经验上未观察到显著的精度损失。

然而，理论理解严重滞后于实践。现有的量化优化器收敛理论存在多个关键缺口：

只分析梯度量化: 大多数理论工作仅考虑随机梯度下降（SGD）中梯度的量化，而现代低精度训练同时量化权重、梯度和优化器状态

不切实际的假设: 现有分析要么假设无偏量化（unbiased quantization），要么依赖误差反馈（error feedback）机制——前者不符合浮点量化的特性，后者在大规模LLM训练中因内存开销而不实际

忽略优化器状态量化: Adam 的一阶矩和二阶矩在实践中也被量化以节省内存（如 8-bit Adam），但理论分析中这一环节被完全忽略

未涵盖新型优化器: Muon 等基于矩阵视角的新兴优化器在低精度下的理论保证为空白

核心问题: 为什么在所有组件都被激进量化的情况下，自适应优化器仍然能有效收敛？

方法详解¶

整体框架¶

本文构建了一个解析式低精度训练框架，把一轮 master-worker 训练拆成四处量化点来追踪：master 维护全精度权重 \(\mathbf{W}_t\) 但只向 worker 传量化版本 \(\mathbf{W}_t^Q\)，worker 用 \(\mathbf{W}_t^Q\) 做前反向、量化梯度回传，master 再反量化梯度、更新被量化的动量与二阶矩、应用优化器更新后重新量化存储。整个分析的支点是用相对误差模型取代以往的无偏量化假设，从而能在不引入误差反馈机制的前提下，逐个组件地刻画量化对收敛率的影响——四处量化点的误差系数 \(q_W, q_G, q_M, q_V\) 被分别保留，最终汇入针对 Adam 与 Muon 两个优化器的收敛定理。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    REL["相对误差量化模型<br/>|x^Q − x| ≤ q·|x|，q=Θ(2^−M)"]
    REL --> LOOP
    subgraph LOOP["Master–Worker 训练回路（四处量化）"]
        direction TB
        M["Master 持全精度 W_t<br/>下发量化权重 W_t^Q"]
        M -->|"权重量化 q_W"| WK["Worker 用 W_t^Q<br/>前向 / 反向"]
        WK -->|"梯度量化 q_G"| UPD["Master 反量化梯度<br/>更新量化动量 q_M、二阶矩 q_V"]
        UPD --> AP["应用更新 → 重新量化存储<br/>进入下一轮 t+1"]
    end
    LOOP --> TRACK["组件级分离的误差追踪<br/>q_W / q_G / q_M / q_V 各自传播进收敛界"]
    TRACK --> ADAM["量化 Adam 收敛定理<br/>q_V,q_W 需 O(1/T^2)，q_G,q_M 需 O(1/T)"]
    TRACK --> MUON["量化 Muon 收敛定理<br/>所有组件仅需 O(T^−1/2)"]

关键设计¶

1. 相对误差量化模型：让浮点截断进入可分析的形式 以往的量化收敛理论大多假设量化是无偏的，或依赖误差反馈来抵消偏差，但浮点量化两者都不满足——FP32→BF16 这类操作只截断尾数、保留符号位和指数位，误差天然与数值量级成比例。本文据此提出相对误差假设：对任意标量 \(x\)，量化值满足 \(|x^Q - x| \leq q|x|\)，其中 \(q = \Theta(2^{-M})\)，\(M\) 为目标格式的尾数长度。这个看似简单的改写是整套分析的钥匙，它既贴合 per-tensor / per-channel scaling 在实践中的行为，又让量化误差随权重、梯度的范数一起进入不等式，使后续逐项放缩成为可能。

2. 组件级分离的误差追踪：把"谁更怕量化"问题拆开 框架不把量化误差合并成一个常数，而是对四个组件分别引入误差系数：权重 \(q_W\)、梯度 \(q_G\)、一阶矩 \(q_M\)、二阶矩 \(q_V\)，并在收敛证明中各自保留其传播路径。这种分离正是本文能回答"应该给哪个组件更高精度"的前提——最终的收敛界会显式地把每个 \(q\) 与不同的 \(T\) 多项式挂钩，使理论结论可以直接翻译成混合精度的位宽分配。

3. 量化 Adam 的收敛定理：暴露二阶矩与权重是精度瓶颈 在无偏随机梯度、\(\ell_\infty\) 有界梯度、\(L\)-光滑等标准假设下，取 \(\eta = \Theta(1/\sqrt{T})\)、\(1-\beta_2 = \Theta(1/T)\)，并要求 \(q_G, q_M = O(1/T)\) 而 \(q_W, q_V = O(1/T^2)\)，量化 Adam 即可达到 \(\tilde{O}(T^{-1/4})\)，与全精度 Adam 的已知最优率一致。关键之处在于这两类条件的不对称：二阶矩 \(q_V\) 和权重 \(q_W\) 需要苛刻的 \(O(1/T^2)\)，而梯度和一阶矩只需 \(O(1/T)\)。原因来自 Adam 的逆平方根结构——当 \(\beta_2\to 1\) 时二阶矩几乎不衰减，其上的量化误差会被 \(1/\sqrt{v}\) 非线性放大，因此必须用更高精度压住。

4. 量化 Muon 的收敛定理：解释它为何更耐受低精度 对 Muon，定理只需所有组件统一满足 \(q_G = q_W = q_M = O(T^{-1/2})\) 就能保持同样的 \(O(T^{-1/4})\) 收敛率，这一要求明显宽于 Adam 的 \(O(1/T)\) 与 \(O(1/T^2)\)。机制上的差别在于 Muon 用基于 SVD 的 sign 型更新替代了逐元素的二阶矩归一化，既然没有逆平方根这一放大环节，量化误差就不会被非线性撑大，从理论上印证了实践中观察到的 Muon 在低精度下更稳健的现象。

损失函数 / 训练策略¶

两个定理共享一组标准假设：无偏随机梯度、梯度有界（Adam 取 \(\ell_\infty\) 有界、Muon 取方差有界）、目标 \(L\)-光滑、初始化有界。量化在实现上以模拟方式给出——固定符号位与指数位、把尾数截断到 \(M\) 位并配合随机舍入，从而与相对误差模型保持一致。

实验关键数据¶

主实验（合成实验 - Rosenbrock 函数）¶

优化器	尾数长度 M	收敛行为	梯度范数
Adam	M=23 (FP32)	基线，最佳收敛	最小
Adam	M=10	接近全精度	略大
Adam	M=7 (BF16)	接近全精度	略大
Adam	M=3	收敛变慢	明显增大
Adam	M=1	严重退化	发散
Muon	M=7 (BF16)	接近全精度	略大
Muon	M=3	仍可收敛	轻微退化
Muon	M=2	开始退化	明显增大

真实数据实验（CIFAR-10，4层全连接网络）¶

优化器	尾数长度 M	梯度范数收敛	与全精度对比
Adam	M≥7	接近全精度	差距极小
Adam	M=3	退化	可见差距
Adam	M=1-2	严重退化	无法匹配
Muon	M≥3	接近全精度	差距极小
Muon	M=2	轻微退化	小幅差距

消融实验¶

配置	关键指标	说明
仅量化梯度	影响最小	梯度对量化最鲁棒
仅量化权重	Adam 敏感，Muon 较鲁棒	验证了 \(q_W\) 的差异化影响
仅量化二阶矩	Adam 最敏感	\(\beta_2 \to 1\) 导致误差放大
仅量化一阶矩	中等影响	衰减机制提供了一定保护
Adam vs Muon 鲁棒性	Muon 更鲁棒	验证了 \(O(T^{-1/2})\) vs \(O(T^{-2})\) 的理论预测

关键发现¶

尾数长度仅需对数增长: \(M = \Omega(\log T)\) 即可保证全精度收敛率，这与现有硬件精度（BF16 的 \(M=7\), FP8 的 \(M=3\)）完全一致
Adam 的二阶矩和权重是瓶颈: \(q_V\) 和 \(q_W\) 需要 \(O(1/T^2)\) 精度，而 \(q_G, q_M\) 仅需 \(O(1/T)\)——验证了 FP8-LM 中二阶矩需要略高精度的经验观察
Muon 需要的误差控制更弱: 所有组件只需 \(O(T^{-1/2})\)，理论解释了 Liu et al. (2025) 观察到的 Muon 在低精度下表现更优的经验现象
相对误差模型比无偏假设更合理: 浮点量化天然满足相对误差性质，不需要额外的误差反馈机制

亮点与洞察¶

填补了重要的理论空白: 首次在实际的浮点量化模型下对自适应优化器（包括 Adam 和新兴的 Muon）给出了收敛保证
可解释的组件级灵敏度分析: 精确量化了不同组件对收敛的差异化影响，为混合精度训练策略的设计提供了理论指导（如：二阶矩和权重需要更高精度）
Adam vs Muon 的定量对比: 理论上清晰解释了 Muon 为何在低精度下更鲁棒（\(O(T^{-1/2})\) vs \(O(T^{-2})\)），为优化器选择提供了依据
实际意义显著: 结果直接证明了 BF16 和 FP8 训练的理论合理性，为工业界的低精度训练实践提供了理论背书
不依赖误差反馈机制: 与之前需要per-parameter error feedback 的理论不同，本文的框架更贴合实际的大规模训练流程

局限与展望¶

标准光滑性假设: 分析假设 \(L\)-光滑，而实际深度学习目标可能仅满足更弱的 \((L_0, L_1)\)-光滑条件，作者将其列为未来方向
精确算术假设: 分析假设量化状态的运算在精确算术下完成，未考虑 FP8 矩阵乘法等低精度运算的额外误差
未考虑通信效率: 低精度训练的另一重要动机是分布式训练中的通信压缩，本文未涉及
实验规模较小: 仅在 Rosenbrock 函数和 CIFAR-10 上的小规模网络验证，未在大规模 Transformer/LLM 训练中实测
\(q_W = O(1/T^2)\) 条件可能过严: 作者指出此条件来自证明中对权重范数无界增长的 worst-case 处理，在权重范数有界的实际场景中可放松至 \(O(1/T)\)

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐