Training Dynamics Impact Post-Training Quantization Robustness¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ZXr3Xx7Z1O
领域: 模型压缩
关键词: 后训练量化, 学习率调度, 训练动态, 权重平均, 平坦极小点

一句话总结¶

作者在最大 32B 参数、15T token 的开源大模型训练轨迹上系统测量了 GPTQ 后训练量化（PTQ）误差，发现量化误差的激增并非由"训练数据量变大"导致，而是由学习率衰减等训练动态主导；据此提出"保持更大学习率""沿轨迹做权重平均"两类干预，可在不损失精度的前提下显著改善量化鲁棒性，并用损失曲面的平坦度（曲率/Hessian）给出统一解释。

研究背景与动机¶

领域现状：后训练量化（PTQ）是大模型高效部署的核心技术，GPTQ、AWQ、BitsAndBytes 等方法把 16/32-bit 训练好的模型压到 3/4-bit，几乎成了模型发布与服务的标准动作。但"一个已训练好的模型到底好不好量化、误差有多大"，社区至今缺乏机制层面的理解。

现有痛点：近期 Kumar et al. (2024) 与 Ouyang et al. (2024) 提出了量化误差的 scaling law，结论是训练 token 越多、量化退化越严重——也就是说，随着数据集不可避免地变大，PTQ 会越来越不可行，甚至质疑未来模型还能不能量化。这个结论相当悲观，且直接和"用更多数据训练更强模型""小模型过训练（overtraining）"的主流趋势冲突。

核心矛盾：这些工作把"量化随训练变差"归因到了数据量，却忽略了一个关键混淆因子——训练动态，尤其是学习率调度。它们的实验里，token 越多的检查点往往恰好处在学习率衰减得越低的阶段，于是"数据量"和"低学习率"被绑在了一起，无法分辨真正的因。

本文目标：(1) 在真实大规模开源训练轨迹上刻画 PTQ 误差与训练阶段、学习率调度的关系；(2) 用受控实验把数据量和学习率解耦，验证到底谁在驱动量化误差；(3) 找到能主动调节量化鲁棒性的训练超参干预；(4) 给出一个统一的几何解释。

切入角度：以往开源模型通常只放出单个最终检查点，无法看到量化误差在训练过程中的演化。而 OLMo、OLMo2、SmolLM3、Apertus 等新一代开源项目放出了数百个中间检查点和完整训练配置，这给了作者前所未有的观测窗口去把"训练轨迹"和"量化误差"对齐起来看。

核心 idea：量化的难易不是由"训练了多少数据"决定的，而是由"训练动态"（学习率如何衰减、是否做权重平均）决定的——因此可以通过调训练超参，主动让模型变得更好量化。

方法详解¶

整体框架¶

这篇论文不是提出一个新量化算法，而是一项系统性实证分析 + 因果澄清 + 可操作干预的研究，整体分四步推进。

第一步是在野观测（in-the-wild）：选取六个现代开源 LLM 训练项目（OLMo 1B/7B、OLMo2 1B/7B/13B/32B、SmolLM3 3B、Apertus 8B、Open-science 1.3B、Amber 7B），对它们训练轨迹上数百个中间检查点统一用 GPTQ 量化到 3-bit 与 4-bit，测量量化误差（用相对交叉熵 \(\big(\tfrac{\mathrm{CE}(\hat W)}{\mathrm{CE}(W)}\big)-1\) 表示）以及下游 12 个 benchmark 的准确率退化，把误差曲线和学习率调度叠在一起看。关键观测：在 Warmup–Stable–Decay (WSD) 调度下，量化误差在稳定阶段（哪怕跑了 11T token）几乎不变，只有当学习率开始衰减时才急剧飙升；验证 loss 则同步下降——二者在衰减阶段发生"背离"。

第二步是受控实验解耦混淆因子：在 70M–160M 的小模型上从头预训练，每次只变一个变量（token 预算、学习率峰值、调度形状、权重衰减），把数据量和学习率分开。结论是：不同 token 预算（10B–100B）的模型在衰减后达到相近的量化误差，说明误差尖峰绑定的是训练动态而非 token 数；进一步复现 Kumar et al. 的实验，证明他们观察到的"误差随数据增大"在换成 WSD 调度后会减缓甚至消失——前人结论被学习率调度这个混淆因子主导了。

第三步是主动干预：既然学习率衰减是主因，那么 (a) 保持更大的学习率峰值、(b) 用权重平均替代学习率衰减，都可能改善量化。第四步是几何解释：通过可视化损失曲面 2D 切片、并用 Hutchinson 估计 Hessian 迹、power iteration 估计最大特征值（sharpness），发现这些干预的共同作用机制是把模型推向更平坦的极小点，从而对量化引入的权重扰动更鲁棒。

关键设计¶

1. 解耦学习率与数据量：量化误差的真正驱动是训练动态而非 token 数

这一点直接针对前人 scaling law 的核心错误归因。作者先在 SmolLM3、OpenSci、OLMo2 等真实轨迹上观察到一个反复出现的模式：在 WSD 的稳定阶段，量化误差长时间近似常数（SmolLM3 跑满 11T token 的稳定期误差几乎不动），一旦进入学习率线性衰减阶段，量化误差急剧上升、且幅度远超此前任何时刻；OLMo2 在缓慢的 cosine 衰减期误差是渐增的，但到陡峭的线性 annealing 阶段就尖峰式爆发。为了排除"恰好衰减期 token 也更多"的混淆，作者在小模型上做受控实验：固定配方，在 12B / 28B / 46B / 64B / 82B / 100B 等不同 token 处分别触发 cooldown，结果所有 run 在衰减后收敛到几乎相同的量化误差，与训练时长无关。这说明误差尖峰是被"学习率衰减"这一训练动态触发的，而不是"见了多少数据"。由此作者复现并反驳了 Kumar et al. (2024) 的结论：把同样的 token 预算换成 WSD 调度后，70M 模型量化退化增长变慢、160M 模型甚至不再随 token 增长——前人"数据越多越难量化"的趋势其实是被学习率调度这个未受控变量主导的。

2. 干预一·更大的学习率峰值在同等精度下换来更好的低比特量化

既然学习率是关键杠杆，最直接的干预就是调它。作者固定其余训练配方、只扫学习率峰值（3e-4 / 1e-3 / 3e-3 / 1e-2），发现量化误差曲线按学习率大小反序排列——学习率越大，量化误差越小。更有说服力的是 full-precision 验证 loss vs 量化后验证 loss 的参数曲线：完美量化应落在 \(x=y\) 对角线上，偏离量度即误差。对比 LR=1e-3 与 3e-3，在相近的全精度验证 loss 下，更大的学习率获得明显更好的低比特量化，且全精度性能没有付出代价。这一观察在 OLMo2-7B 的 300B token 复现实验上同样成立。一个相关发现是：cosine 调度因为末期学习率会无差别地掉到极小，3-bit 量化误差在训练末尾出现陡峭上翘，反而不如能全程控制学习率的 WSD——说明"训练末期的学习率控制力"对量化很重要。此外作者也分析了权重衰减 \(\lambda\)：在达到相近全精度 loss 的配置中，\(\lambda\) 越大量化误差越低（印证 Ahmadian et al. 2023），但 \(\lambda\) 的影响明显小于学习率。

3. 干预二·沿训练轨迹做权重平均，可替代学习率衰减来提升量化鲁棒性

这个干预源于一个反直觉观察：OLMo2 和 SmolLM3 的最终发布权重是多个检查点平均（model soup / 线性 merge）得到的，而这些平均模型的量化退化竟然低于任何单个成分模型。作者据此提出：既然学习率衰减会损害量化，而权重平均直觉上能近似学习率衰减的降噪效果，那能否用权重平均绕开衰减带来的量化损害？他们在 160M 模型、100B token、恒定学习率下，比较 LAWA（Latest Weight Averaging，对稳定期检查点做平均）与若干中间 cooldown。结果很关键：在全精度下 LAWA 不如学习率衰减（这与已有工作一致）；但在 3-bit 量化下，LAWA 得到的检查点能匹配甚至超过学习率衰减模型——即权重平均提供了一条"既不触发衰减式量化退化、又能拿到好检查点"的路径。把同样手法用到开源 OLMo-1B 轨迹上，即便检查点保存频率不可控，平均模型在全精度和量化后都优于最终模型，进一步坐实了权重平均是改善 PTQ 鲁棒性的可行方向。这里需区分两个概念：model soup 平均的是不同训练 run 的模型，weight averaging（如 LAWA）平均的是单条轨迹上的检查点。

4. 统一机制·平坦极小点：用损失曲率解释为何这些干预都有效

前面三个发现看似零散，作者用损失几何把它们串成一个机制。一方面可视化损失曲面：取训练末点 \(\Theta_K\)、前一步 \(\Theta_{K-1}\)、量化后 \(\hat\Theta_K\) 张成的 2D 切片，发现学习率越小，\(\Theta_{K-1}\) 与 \(\Theta_K\) 越近、\(\Theta_K\) 与 \(\hat\Theta_K\) 也越近——但因为学习率越小盆地越尖锐（sharp），量化后的 \(\hat\Theta_K\) 虽然几何距离更近，却落到了更高的 loss 水平；更低比特扰动会进一步放大这一现象。也就是说，"量化方向"上的几何结构和"上一步优化方向"上的几何结构高度相似——量化后的几何由训练动态塑造。另一方面定量看曲率：用 Hutchinson 估计 Hessian 迹、power iteration 估计最大特征值，发现学习率每次衰减时 sharpness 都急剧上升；稳定阶段只有最大特征值缓升、其余仍小，而衰减阶段所有特征值齐升。Hessian 迹的演化几乎和量化误差曲线同形。结论是：学习率衰减把模型推向更尖锐的极小点，使权重对量化扰动更敏感；而保持大学习率、做权重平均都倾向于停在更平坦的盆地，因此更好量化。这就是贯穿全文干预的统一解释。

实验关键数据¶

主实验¶

分析覆盖的训练轨迹与量化设置（GPTQ，3/4-bit）：

模型族	参数规模	训练 token	关键观测
SmolLM3	3B	11T（WSD）	稳定期量化误差近常数，衰减期急剧飙升
OLMo2	1B/7B/13B/32B	4–6T	cosine 期渐增，线性 annealing 期尖峰；model soup 误差低于任意单成分
OpenSci	1.3B	1T	学习率下降时量化误差骤升，跨不同 token 预算一致
受控小模型	70M/160M	10B–100B	不同 token 预算衰减后量化误差相近

学习率干预（160M，固定配方扫峰值学习率）：

学习率峰值	相对量化误差趋势	说明
3e-4（最小）	最高	误差曲线按学习率反序排列
1e-3	较高	同等验证 loss 下不如更大 LR
3e-3	较低	同等验证 loss 下量化更优、无精度代价
1e-2（最大）	最低	量化误差最小

消融实验¶

配置	量化设置	关键发现
WSD 稳定期（无衰减）	3/4-bit	跑满 11T token 量化误差几乎不变
WSD 衰减期	3/4-bit	量化误差急剧飙升，验证 loss 同步下降
Cosine vs WSD（同 token 预算）	3/4-bit	WSD 退化增长更慢/不增，反驳"数据量主因"
LAWA 权重平均（恒定 LR）	3-bit	匹配甚至超过学习率衰减的量化表现
LAWA	full-precision	不如学习率衰减（全精度下平均仍逊于衰减）
大权重衰减 \(\lambda\)	3/4-bit	同等 loss 下 \(\lambda\) 越大量化误差越低，但影响小于 LR

关键发现¶

学习率衰减是量化误差激增的开关：稳定阶段误差几乎不动，衰减一启动误差立刻飙升，这是全文最核心、跨多个模型族一致复现的现象。
数据量并非主因：10B–100B token 的不同 run 在衰减后收敛到相近误差，直接推翻"训练越多越难量化"的悲观 scaling law 结论。
全精度与量化的权衡可以错开：LAWA 在全精度下逊于学习率衰减，但在 3-bit 下反超——意味着评价干预好坏必须分精度看，不能只看全精度 loss。
曲率与量化误差同形：Hessian 迹的演化曲线几乎复刻量化误差曲线，把"学习率—平坦度—量化鲁棒性"三者钉在一起。

亮点与洞察¶

澄清混淆因子的研究范式很漂亮：用受控实验把"数据量"和"学习率调度"解耦，证明前人 scaling law 的悲观结论是被未受控的学习率主导，这是一类高价值的"纠偏式"工作——不提新算法，但改变了整个社区对"模型是否会越来越难量化"的预期。
把零散干预收敛到单一几何机制：更大学习率、权重平均、更大权重衰减三类看似无关的干预，最终都被归结为"停在更平坦的极小点"，Hessian 迹与量化误差同形的实证非常有说服力。
可直接落地的建议：在大规模训练前的超参选择阶段，应把"量化鲁棒性"作为一条额外的评估维度——两个看似等价的学习率，选小的那个可能在下游量化时埋雷。这条 trick 可迁移到任何要部署量化版本的预训练流程。
权重平均是低成本免费午餐：LAWA 与现有训练管线完全兼容、几乎零额外成本，却能改善 PTQ，且适用于已放出多检查点的开源模型（如 OLMo-1B 事后平均即可提升）。

局限与展望¶

量化方法集中在 GPTQ：正文主要分析 GPTQ 3/4-bit，AWQ、BNB 仅在附录验证趋势一致；对旋转/码本类等更复杂量化方法是否同样成立未充分展开。
受控实验规模偏小：干预实验（学习率、权重平均、权重衰减）多在 70M–160M 上做，虽然在野观测到 32B，但"主动干预能在 32B 规模同样改善量化"缺乏直接大规模验证。
机制解释偏关联：平坦极小点的解释建立在 2D 切片可视化与 Hessian 估计上，是强相关证据而非严格因果证明；"sharpness 升高 → 量化变差"的定量预测模型尚未给出。
改进思路：可把"量化鲁棒性"显式写进学习率调度/权重平均的设计目标，做成在线监控量化误差的训练策略；或推导一个把曲率、学习率、比特数联系起来的量化误差预测公式，替代纯 token 数的 scaling law。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 纠正了被广泛接受的量化 scaling law 悲观结论，把主因从数据量改写为训练动态，视角新。
实验充分度: ⭐⭐⭐⭐ 在野观测覆盖到 32B/15T 很扎实，但主动干预多在百兆级小模型上验证。
写作质量: ⭐⭐⭐⭐⭐ 从观测→解耦→干预→几何机制层层递进，逻辑链清晰。
价值: ⭐⭐⭐⭐⭐ 给出可直接落地的训练超参建议，对部署量化模型的实践极有指导意义。