跳转至

Training Dynamics Impact Post-Training Quantization Robustness

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ZXr3Xx7Z1O
领域: 模型压缩
关键词: 后训练量化, 学习率调度, 训练动态, 权重平均, 平坦极小点

一句话总结

作者在最大 32B 参数、15T token 的开源大模型训练轨迹上系统测量了 GPTQ 后训练量化(PTQ)误差,发现量化误差的激增并非由"训练数据量变大"导致,而是由学习率衰减等训练动态主导;据此提出"保持更大学习率""沿轨迹做权重平均"两类干预,可在不损失精度的前提下显著改善量化鲁棒性,并用损失曲面的平坦度(曲率/Hessian)给出统一解释。

研究背景与动机

领域现状:后训练量化(PTQ)是大模型高效部署的核心技术,GPTQ、AWQ、BitsAndBytes 等方法把 16/32-bit 训练好的模型压到 3/4-bit,几乎成了模型发布与服务的标准动作。但"一个已训练好的模型到底好不好量化、误差有多大",社区至今缺乏机制层面的理解。

现有痛点:近期 Kumar et al. (2024) 与 Ouyang et al. (2024) 提出了量化误差的 scaling law,结论是训练 token 越多、量化退化越严重——也就是说,随着数据集不可避免地变大,PTQ 会越来越不可行,甚至质疑未来模型还能不能量化。这个结论相当悲观,且直接和"用更多数据训练更强模型""小模型过训练(overtraining)"的主流趋势冲突。

核心矛盾:这些工作把"量化随训练变差"归因到了数据量,却忽略了一个关键混淆因子——训练动态,尤其是学习率调度。它们的实验里,token 越多的检查点往往恰好处在学习率衰减得越低的阶段,于是"数据量"和"低学习率"被绑在了一起,无法分辨真正的因。

本文目标:(1) 在真实大规模开源训练轨迹上刻画 PTQ 误差与训练阶段、学习率调度的关系;(2) 用受控实验把数据量和学习率解耦,验证到底谁在驱动量化误差;(3) 找到能主动调节量化鲁棒性的训练超参干预;(4) 给出一个统一的几何解释。

切入角度:以往开源模型通常只放出单个最终检查点,无法看到量化误差在训练过程中的演化。而 OLMo、OLMo2、SmolLM3、Apertus 等新一代开源项目放出了数百个中间检查点和完整训练配置,这给了作者前所未有的观测窗口去把"训练轨迹"和"量化误差"对齐起来看。

核心 idea:量化的难易不是由"训练了多少数据"决定的,而是由"训练动态"(学习率如何衰减、是否做权重平均)决定的——因此可以通过调训练超参,主动让模型变得更好量化。

方法详解

整体框架

这篇论文不是提出一个新量化算法,而是一项系统性实证分析 + 因果澄清 + 可操作干预的研究,整体分四步推进。

第一步是在野观测(in-the-wild):选取六个现代开源 LLM 训练项目(OLMo 1B/7B、OLMo2 1B/7B/13B/32B、SmolLM3 3B、Apertus 8B、Open-science 1.3B、Amber 7B),对它们训练轨迹上数百个中间检查点统一用 GPTQ 量化到 3-bit 与 4-bit,测量量化误差(用相对交叉熵 \(\big(\tfrac{\mathrm{CE}(\hat W)}{\mathrm{CE}(W)}\big)-1\) 表示)以及下游 12 个 benchmark 的准确率退化,把误差曲线和学习率调度叠在一起看。关键观测:在 Warmup–Stable–Decay (WSD) 调度下,量化误差在稳定阶段(哪怕跑了 11T token)几乎不变,只有当学习率开始衰减时才急剧飙升;验证 loss 则同步下降——二者在衰减阶段发生"背离"。

第二步是受控实验解耦混淆因子:在 70M–160M 的小模型上从头预训练,每次只变一个变量(token 预算、学习率峰值、调度形状、权重衰减),把数据量和学习率分开。结论是:不同 token 预算(10B–100B)的模型在衰减后达到相近的量化误差,说明误差尖峰绑定的是训练动态而非 token 数;进一步复现 Kumar et al. 的实验,证明他们观察到的"误差随数据增大"在换成 WSD 调度后会减缓甚至消失——前人结论被学习率调度这个混淆因子主导了

第三步是主动干预:既然学习率衰减是主因,那么 (a) 保持更大的学习率峰值、(b) 用权重平均替代学习率衰减,都可能改善量化。第四步是几何解释:通过可视化损失曲面 2D 切片、并用 Hutchinson 估计 Hessian 迹、power iteration 估计最大特征值(sharpness),发现这些干预的共同作用机制是把模型推向更平坦的极小点,从而对量化引入的权重扰动更鲁棒。

关键设计

1. 解耦学习率与数据量:量化误差的真正驱动是训练动态而非 token 数

这一点直接针对前人 scaling law 的核心错误归因。作者先在 SmolLM3、OpenSci、OLMo2 等真实轨迹上观察到一个反复出现的模式:在 WSD 的稳定阶段,量化误差长时间近似常数(SmolLM3 跑满 11T token 的稳定期误差几乎不动),一旦进入学习率线性衰减阶段,量化误差急剧上升、且幅度远超此前任何时刻;OLMo2 在缓慢的 cosine 衰减期误差是渐增的,但到陡峭的线性 annealing 阶段就尖峰式爆发。为了排除"恰好衰减期 token 也更多"的混淆,作者在小模型上做受控实验:固定配方,在 12B / 28B / 46B / 64B / 82B / 100B 等不同 token 处分别触发 cooldown,结果所有 run 在衰减后收敛到几乎相同的量化误差,与训练时长无关。这说明误差尖峰是被"学习率衰减"这一训练动态触发的,而不是"见了多少数据"。由此作者复现并反驳了 Kumar et al. (2024) 的结论:把同样的 token 预算换成 WSD 调度后,70M 模型量化退化增长变慢、160M 模型甚至不再随 token 增长——前人"数据越多越难量化"的趋势其实是被学习率调度这个未受控变量主导的。

2. 干预一·更大的学习率峰值在同等精度下换来更好的低比特量化

既然学习率是关键杠杆,最直接的干预就是调它。作者固定其余训练配方、只扫学习率峰值(3e-4 / 1e-3 / 3e-3 / 1e-2),发现量化误差曲线按学习率大小反序排列——学习率越大,量化误差越小。更有说服力的是 full-precision 验证 loss vs 量化后验证 loss 的参数曲线:完美量化应落在 \(x=y\) 对角线上,偏离量度即误差。对比 LR=1e-3 与 3e-3,在相近的全精度验证 loss 下,更大的学习率获得明显更好的低比特量化,且全精度性能没有付出代价。这一观察在 OLMo2-7B 的 300B token 复现实验上同样成立。一个相关发现是:cosine 调度因为末期学习率会无差别地掉到极小,3-bit 量化误差在训练末尾出现陡峭上翘,反而不如能全程控制学习率的 WSD——说明"训练末期的学习率控制力"对量化很重要。此外作者也分析了权重衰减 \(\lambda\):在达到相近全精度 loss 的配置中,\(\lambda\) 越大量化误差越低(印证 Ahmadian et al. 2023),但 \(\lambda\) 的影响明显小于学习率。

3. 干预二·沿训练轨迹做权重平均,可替代学习率衰减来提升量化鲁棒性

这个干预源于一个反直觉观察:OLMo2 和 SmolLM3 的最终发布权重是多个检查点平均(model soup / 线性 merge)得到的,而这些平均模型的量化退化竟然低于任何单个成分模型。作者据此提出:既然学习率衰减会损害量化,而权重平均直觉上能近似学习率衰减的降噪效果,那能否用权重平均绕开衰减带来的量化损害?他们在 160M 模型、100B token、恒定学习率下,比较 LAWA(Latest Weight Averaging,对稳定期检查点做平均)与若干中间 cooldown。结果很关键:在全精度下 LAWA 不如学习率衰减(这与已有工作一致);但在 3-bit 量化下,LAWA 得到的检查点能匹配甚至超过学习率衰减模型——即权重平均提供了一条"既不触发衰减式量化退化、又能拿到好检查点"的路径。把同样手法用到开源 OLMo-1B 轨迹上,即便检查点保存频率不可控,平均模型在全精度和量化后都优于最终模型,进一步坐实了权重平均是改善 PTQ 鲁棒性的可行方向。这里需区分两个概念:model soup 平均的是不同训练 run 的模型,weight averaging(如 LAWA)平均的是单条轨迹上的检查点。

4. 统一机制·平坦极小点:用损失曲率解释为何这些干预都有效

前面三个发现看似零散,作者用损失几何把它们串成一个机制。一方面可视化损失曲面:取训练末点 \(\Theta_K\)、前一步 \(\Theta_{K-1}\)、量化后 \(\hat\Theta_K\) 张成的 2D 切片,发现学习率越小,\(\Theta_{K-1}\)\(\Theta_K\) 越近、\(\Theta_K\)\(\hat\Theta_K\) 也越近——但因为学习率越小盆地越尖锐(sharp),量化后的 \(\hat\Theta_K\) 虽然几何距离更近,却落到了更高的 loss 水平;更低比特扰动会进一步放大这一现象。也就是说,"量化方向"上的几何结构和"上一步优化方向"上的几何结构高度相似——量化后的几何由训练动态塑造。另一方面定量看曲率:用 Hutchinson 估计 Hessian 迹、power iteration 估计最大特征值,发现学习率每次衰减时 sharpness 都急剧上升;稳定阶段只有最大特征值缓升、其余仍小,而衰减阶段所有特征值齐升。Hessian 迹的演化几乎和量化误差曲线同形。结论是:学习率衰减把模型推向更尖锐的极小点,使权重对量化扰动更敏感;而保持大学习率、做权重平均都倾向于停在更平坦的盆地,因此更好量化。这就是贯穿全文干预的统一解释。

实验关键数据

主实验

分析覆盖的训练轨迹与量化设置(GPTQ,3/4-bit):

模型族 参数规模 训练 token 关键观测
SmolLM3 3B 11T(WSD) 稳定期量化误差近常数,衰减期急剧飙升
OLMo2 1B/7B/13B/32B 4–6T cosine 期渐增,线性 annealing 期尖峰;model soup 误差低于任意单成分
OpenSci 1.3B 1T 学习率下降时量化误差骤升,跨不同 token 预算一致
受控小模型 70M/160M 10B–100B 不同 token 预算衰减后量化误差相近

学习率干预(160M,固定配方扫峰值学习率):

学习率峰值 相对量化误差趋势 说明
3e-4(最小) 最高 误差曲线按学习率反序排列
1e-3 较高 同等验证 loss 下不如更大 LR
3e-3 较低 同等验证 loss 下量化更优、无精度代价
1e-2(最大) 最低 量化误差最小

消融实验

配置 量化设置 关键发现
WSD 稳定期(无衰减) 3/4-bit 跑满 11T token 量化误差几乎不变
WSD 衰减期 3/4-bit 量化误差急剧飙升,验证 loss 同步下降
Cosine vs WSD(同 token 预算) 3/4-bit WSD 退化增长更慢/不增,反驳"数据量主因"
LAWA 权重平均(恒定 LR) 3-bit 匹配甚至超过学习率衰减的量化表现
LAWA full-precision 不如学习率衰减(全精度下平均仍逊于衰减)
大权重衰减 \(\lambda\) 3/4-bit 同等 loss 下 \(\lambda\) 越大量化误差越低,但影响小于 LR

关键发现

  • 学习率衰减是量化误差激增的开关:稳定阶段误差几乎不动,衰减一启动误差立刻飙升,这是全文最核心、跨多个模型族一致复现的现象。
  • 数据量并非主因:10B–100B token 的不同 run 在衰减后收敛到相近误差,直接推翻"训练越多越难量化"的悲观 scaling law 结论。
  • 全精度与量化的权衡可以错开:LAWA 在全精度下逊于学习率衰减,但在 3-bit 下反超——意味着评价干预好坏必须分精度看,不能只看全精度 loss。
  • 曲率与量化误差同形:Hessian 迹的演化曲线几乎复刻量化误差曲线,把"学习率—平坦度—量化鲁棒性"三者钉在一起。

亮点与洞察

  • 澄清混淆因子的研究范式很漂亮:用受控实验把"数据量"和"学习率调度"解耦,证明前人 scaling law 的悲观结论是被未受控的学习率主导,这是一类高价值的"纠偏式"工作——不提新算法,但改变了整个社区对"模型是否会越来越难量化"的预期。
  • 把零散干预收敛到单一几何机制:更大学习率、权重平均、更大权重衰减三类看似无关的干预,最终都被归结为"停在更平坦的极小点",Hessian 迹与量化误差同形的实证非常有说服力。
  • 可直接落地的建议:在大规模训练前的超参选择阶段,应把"量化鲁棒性"作为一条额外的评估维度——两个看似等价的学习率,选小的那个可能在下游量化时埋雷。这条 trick 可迁移到任何要部署量化版本的预训练流程。
  • 权重平均是低成本免费午餐:LAWA 与现有训练管线完全兼容、几乎零额外成本,却能改善 PTQ,且适用于已放出多检查点的开源模型(如 OLMo-1B 事后平均即可提升)。

局限与展望

  • 量化方法集中在 GPTQ:正文主要分析 GPTQ 3/4-bit,AWQ、BNB 仅在附录验证趋势一致;对旋转/码本类等更复杂量化方法是否同样成立未充分展开。
  • 受控实验规模偏小:干预实验(学习率、权重平均、权重衰减)多在 70M–160M 上做,虽然在野观测到 32B,但"主动干预能在 32B 规模同样改善量化"缺乏直接大规模验证。
  • 机制解释偏关联:平坦极小点的解释建立在 2D 切片可视化与 Hessian 估计上,是强相关证据而非严格因果证明;"sharpness 升高 → 量化变差"的定量预测模型尚未给出。
  • 改进思路:可把"量化鲁棒性"显式写进学习率调度/权重平均的设计目标,做成在线监控量化误差的训练策略;或推导一个把曲率、学习率、比特数联系起来的量化误差预测公式,替代纯 token 数的 scaling law。

相关工作与启发

  • vs Kumar et al. (2024) / Ouyang et al. (2024):他们建立"量化误差随训练 token 增大"的 scaling law,结论是数据越多越难量化、过训练小模型更划算;本文指出其实验未控制学习率调度这一混淆因子,换成 WSD 后趋势减缓甚至消失,从而把主因从"数据量"修正为"训练动态"。
  • vs Ahmadian et al. (2023):他们发现大激活离群值可用权重衰减抑制以改善 PTQ;本文复现了"更大权重衰减→更低量化误差",但进一步证明权重衰减的影响小于学习率,并把它纳入统一的平坦极小点框架。
  • vs Model Soup (Wortsman et al. 2022) / Weight Averaging (Izmailov et al. 2018):已有工作用权重平均提升全精度性能;本文首次系统揭示权重平均对量化鲁棒性的益处,并区分了跨 run 的 model soup 与单轨迹的 LAWA。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 纠正了被广泛接受的量化 scaling law 悲观结论,把主因从数据量改写为训练动态,视角新。
  • 实验充分度: ⭐⭐⭐⭐ 在野观测覆盖到 32B/15T 很扎实,但主动干预多在百兆级小模型上验证。
  • 写作质量: ⭐⭐⭐⭐⭐ 从观测→解耦→干预→几何机制层层递进,逻辑链清晰。
  • 价值: ⭐⭐⭐⭐⭐ 给出可直接落地的训练超参建议,对部署量化模型的实践极有指导意义。