ICLR 2026 学习理论量化训练低比特量化高维线性回归 SGD 超额风险界加性量化乘性量化

Learning under Quantization for High-Dimensional Linear Regression¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=eUjUReZoYR
代码: 待确认
领域: 学习理论 / 量化训练
关键词: 低比特量化, 高维线性回归, SGD, 超额风险界, 加性量化, 乘性量化

一句话总结¶

本文给出了第一个系统刻画"量化如何影响学习性能"的理论框架——在高维线性回归 + 有限步 SGD 设定下，对数据/标签/参数/激活/梯度五类量化目标推导出精确的超额风险上界，并证明加性量化（对应 INT）会污染数据谱、乘性量化（对应 FP）则保留谱结构，从而在高维下更优。

研究背景与动机¶

领域现状：低比特量化已成为训练大模型不可或缺的技术，随之兴起的"量化 scaling law"研究试图刻画模型规模、数据量、比特位宽之间的权衡（Kumar 2024 把位宽当作离散精度度量，Sun 2025 把 FP 的指数位/尾数位分开建模，Chen 2025 给出统一 scaling law）。

现有痛点：理论侧严重滞后于实践。已有量化优化器的理论工作（De Sa 2015、Alistarh 2017 的 QSGD、Markov 2023）几乎都只关心训练损失的收敛性，而忽略了更根本的问题——量化到底如何影响模型的学习/泛化性能？最接近的 Zhang et al. (2022) 用 NTK 分析了量化两层网络的泛化，但三点受限：只考虑参数量化、局限于 lazy-training 区域、无法给出关于样本量/维度/量化误差的显式泛化界。

核心矛盾：量化误差、模型维度、数据量三者如何耦合并共同作用于population risk，至今缺乏严格刻画。而真实硬件用的 INT 和 FP 两种量化格式误差结构完全不同，但理论上没人说清它们各自的优劣边界。

本文目标：以高维线性回归作为可解析的 testbed，对五类量化目标统一建模，推导出关于全谱特征值、样本量、量化误差的精确超额风险界 $\mathcal{E}(w_N)=L(w_N)-L(w^*)$，并据此比较 INT 与 FP 在不同维度/批量下的优劣。

核心 idea：「区分两类量化误差模型」——把量化误差按条件二阶矩的结构分成加性（误差方差 $\propto I$，对应固定 bin 长的 INT）与乘性（误差方差 $\propto xx^\top$，随信号幅度缩放，对应 value-aware 的 FP），由此揭示二者对数据谱的截然不同影响。

方法详解¶

整体框架¶

本文不提算法，而是为下式的"量化 SGD"建立超额风险理论。每步对一个 batch $(X_t,y_t)$ 做更新 $$w_t = w_{t-1} + \gamma \tfrac{1}{B} Q_d(X_t)^\top Q_o\!\big(Q_l(y_t) - Q_a(Q_d(X_t)Q_p(w_{t-1}))\big),$$ 其中 $Q_d,Q_l,Q_p,Q_a,Q_o$ 分别是对数据特征、标签、参数、激活、输出梯度的独立量化算子，输出取迭代平均 $\bar w_N$。分析路线是：先在通用量化下把超额风险拆成 方差误差 + 偏差误差 + 近似误差（Theorem 4.1），再把加性/乘性两种误差结构代入得到可解释的精确界（Corollary 4.1 / Theorem 4.2），最后在多项式衰减谱下做对比（Corollary 4.3）并映射回 INT vs FP。

flowchart TD
    A[量化 SGD 更新式<br/>5 类量化算子 Q_d,Q_l,Q_p,Q_a,Q_o] --> B[Thm 4.1 通用量化界<br/>VarErr+BiasErr+ApproxErr]
    B --> C[Cor 4.1 加性量化<br/>误差方差∝I → 谱被常数地板抬平]
    B --> D[Thm 4.2 乘性量化<br/>误差方差∝xxᵀ → 谱整体缩放保结构]
    C --> E[Cor 4.3 多项式衰减谱<br/>加性风险∝维度 d，高维发散]
    D --> E2[Cor 4.3 乘性风险<br/>维度无关，高维可用]
    E --> F[映射: 加性≈INT, 乘性≈FP<br/>给出 INT/FP 优劣边界]
    E2 --> F

关键设计¶

1. 加性 vs 乘性量化的误差结构定义：把硬件格式抽象成两类条件方差。 在无偏量化假设 $\mathbb{E}[Q_i(u)|u]=u$ 之上，本文按量化误差的条件二阶矩结构把量化分为两类：乘性量化满足 $\mathbb{E}[(Q(x)-x)(Q(x)-x)^\top|x]=\epsilon\,xx^\top$，误差正比于数据自身的外积、随幅度缩放；加性量化满足 $\mathbb{E}[(Q(x)-x)(Q(x)-x)^\top|x]=\epsilon I$，误差方差在各坐标上恒定。这一区分有坚实的硬件依据：INT8/INT16 用固定 bin 长，误差与数值大小基本无关，对应加性；FP8（如 E4M3）通过指数+尾数位实现 value-aware 的 bin 长，误差随数值幅度缩放，对应乘性。整篇理论的全部差异最终都追溯到这两个误差模型。

2. 通用量化的三段式超额风险界：分离"谱失真"与"噪声放大"。 Theorem 4.1 在量化数据协方差 $H^{(q)}=\mathbb{E}[Q_d(x)Q_d(x)^\top]$ 及其有效维度 $k^*=\max\{k:\lambda_k^{(q)}\ge \tfrac{1}{N\gamma}\}$ 之上，把 $\mathbb{E}[\mathcal{E}(w_N)]$ 上界拆成方差、偏差、近似三项。关键结论是量化的作用分两路：数据量化通过改变 $H^{(q)}$ 的谱来影响方差/偏差项，并额外引入近似误差 ApproxErr（刻画全精度最优 $w^*$ 与量化空间最优 $w^{(q)*}$ 之间的差距）；而参数/激活/梯度量化则统一放大了有效噪声方差 $$\sigma_G^{(q)2}=\tfrac{\sigma^2+\sup_t\mathbb{E}[\epsilon_t^{(o)}\epsilon_t^{(o)\top}]+\mathbb{E}[\epsilon_t^{(a)}\epsilon_t^{(a)\top}]}{B}+\alpha_B\sup_t\mathbb{E}\,\mathrm{tr}(H^{(q)}\epsilon_{t-1}^{(p)}\epsilon_{t-1}^{(p)\top}).$$ 当量化误差趋零时，该界精确退化为 Zou et al. (2023) 的全精度结果，说明框架与经典理论自洽；且无偏假设下参数/激活/梯度量化只进方差项、不进偏差项。

3. 加性量化：批量平均能压住激活/梯度噪声，却被"噪声地板"抬平谱。 Corollary 4.1 显示，加性下激活和梯度量化误差 $\epsilon_a,\epsilon_o$ 与标签噪声 $\sigma^2$ 一样被 $1/B$ 因子抑制——这是因为加性误差方差恒定、与数据无关，激活/梯度噪声项 $\tfrac{1}{B^2}\mathbb{E}[X_q^\top\epsilon\epsilon^\top X_q]$ 中的数据依赖被中和掉。但代价是数据量化在整个谱上加了一个固定常数 $\epsilon_d$，相当于给尾部特征值设了一道噪声地板，阻止其继续衰减、谱被抬平，导致高维尾部子空间累积大量风险；而参数量化 $\epsilon_p$ 因为夹在 $X_q^\top X_q$ 之间仍保留数据依赖，故 $\epsilon_p$ 的放大正比于 $\mathrm{tr}(H)$、与批量无关。

4. 乘性量化：谱被整体缩放而非抬平，高维下天然占优。 Theorem 4.2 通过直接分析（而非套用通用界）给出更紧的乘性结果。其结构性优势在于误差随信号幅度缩放，相当于把整个谱乘以 $(1+\epsilon_d)$ 的线性变换，不改变特征值的相对分布、保留谱衰减性质，因此 ApproxErr 仅为 $\tfrac{\epsilon_d}{1+\epsilon_d}\|w^*\|_H^2$。但有一个反向代价：激活/梯度噪声 $\epsilon_a,\epsilon_o$ 与 $\|w^*\|_H^2$ 耦合且不随 $1/B$ 衰减（因为乘性误差本身依赖信号、与数据结构纠缠），即加大批量在乘性下反而收紧不了这部分要求。Corollary 4.2/4.3 据此给出维持全精度性能 $R_0$ 所需的量化误差条件，并在多项式衰减谱 $\lambda_i\asymp i^{-a}$ 下证明：加性风险显式依赖维度 $d$、$d\to\infty$ 时发散；乘性风险维度无关，无穷维设定下仍可用。最终映射回硬件——令 $\epsilon_{\text{add}}\approx 2^{-2b}$（INT 位宽 $b$）、$\epsilon_{\text{mul}}\approx 2^{-2m}$（FP 尾数位 $m$）——得到 FP 在 $md\ge bd-\tfrac{a}{2}\log_2 d$ 时更优、即 FP 即便尾数位比 INT 位宽少 $\tfrac{a}{2}\log_2 d$ 仍能胜出，凸显 FP 在高维下的优势。

实验关键数据¶

实验用高斯最小二乘合成模型验证理论：协方差谱 $\lambda_i=i^{-2}$，真值 $w^*[i]=1$，噪声 $\sigma^2=1$，constant-stepsize SGD + 迭代平均。

主实验（Q1：量化级别的影响，固定 d=200, B=1）¶

量化方案	量化级别 $\varepsilon$	超额风险表现
乘性（FP-like）	0 / 1e-3 / 5e-3 / 1e-2	各级别下都基本保持全精度泛化性能
加性（INT-like）	0 / 1e-3 / 5e-3 / 1e-2	随 $\varepsilon$ 增大性能逐渐退化

消融（Q2：维度的影响，固定 $\varepsilon$=0.01, B=1）¶

量化方案	维度 $d\in\{50,100,200,400\}$	超额风险表现
乘性（FP-like）	50→400	高维下泛化性能仍被保持
加性（INT-like）	50→400	随 $d$ 增大性能显著恶化

关键发现¶

B=1 时加性需要更严的量化级别才能追平全精度，验证了 Corollary 4.2 中加性数据量化的谱依赖严格约束。
加性对维度敏感、乘性维度无关，与 Corollary 4.3 的多项式谱结论（加性风险 $\propto d$ 在高维发散）完全吻合。
理论与数值实验双向印证：乘性（FP）在高维更鲁棒，加性（INT）受益于批量平均但谱失真致命。
风险曲线随样本量 $N$ 增大而下降，且乘性各曲线几乎重合于全精度基线，直观展示了"谱保结构"带来的近似无损学习。

亮点与洞察¶

第一个把"量化目标"细分到五类（数据/标签/参数/激活/梯度）并给出显式超额风险界的理论工作，填补了"量化只分析训练损失收敛"的空白。
加性 vs 乘性的二分法是全篇的灵魂——一个简洁的条件二阶矩结构差异，最终统一解释了 INT/FP 的所有性能分歧，并能定量给出 $md$ vs $bd$ 的选择边界，对实际选位宽有直接指导意义。
框架与 Zou et al. (2023) 的全精度结果精确自洽（误差趋零即退化），可信度高。
揭示了一个反直觉点：批量平均对加性量化的激活/梯度噪声是"解药"，但对乘性量化基本无效——因为乘性噪声与信号纠缠。

局限与展望¶

仅限线性回归 + 无偏量化假设；真实低比特训练常用有偏量化（如带 clipping/saturation），文中坦言框架"可扩展"但未给出有偏情形的界。
假设矩阵运算在全精度下完成、量化只作用于结果，与真实硬件中累加也低精度的情形有差距。
量化级别 $\epsilon$ 与位宽的映射（$\epsilon\approx 2^{-2b}$）是粗略近似，未考虑动态范围/溢出等实际因素。
实验仅为合成高斯数据，缺少真实数据集或神经网络上的验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个对五类量化目标给出显式泛化界、并从误差结构层面统一解释 INT/FP 优劣的理论框架，切入角度新且基础。
实验充分度: ⭐⭐⭐ 合成实验干净地验证了两条核心结论，但仅限高斯线性模型，缺真实数据/网络验证（本就是理论文，可理解）。
写作质量: ⭐⭐⭐⭐ 逻辑链条清晰（通用界→两类特例→谱分析→硬件映射），符号体系完整，可解释性强；公式密集，对非理论读者门槛偏高。
价值: ⭐⭐⭐⭐ 为"选 INT 还是 FP、选多少位宽"提供了首个有理论依据的定量判据，对低精度训练实践与后续量化 scaling law 理论都有奠基意义。

Learning under Quantization for High-Dimensional Linear Regression¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

主实验（Q1：量化级别的影响，固定 d=200, B=1）¶

消融（Q2：维度的影响，固定 \(\varepsilon\)=0.01, B=1）¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Learning under Quantization for High-Dimensional Linear Regression¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

主实验（Q1：量化级别的影响，固定 d=200, B=1）¶

消融（Q2：维度的影响，固定 \(\varepsilon\)=0.01, B=1）¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶