跳转至

Binary Quadratic Quantization: Beyond First-Order Quantization for Real-Valued Matrix Compression

会议: NeurIPS 2025
arXiv: 2510.18650
代码: 待确认
领域: 模型压缩 / 量化
关键词: 二值量化, 二次编码, 混合整数规划, ViT压缩, 极低位宽

一句话总结

BQQ 提出二次二值量化——用二值矩阵的乘积(而非线性组合)表示权重矩阵,突破传统一阶量化的表达能力限制,通过扩展 AMFD(退火均场下降)到 PUBO 问题求解混合整数优化,在 2-bit 无数据 ViT 量化上实现从 10.83% 到 58.25% 的准确率飞跃。

研究背景与动机

领域现状:传统量化(均匀量化、二值编码 BCQ)使用二值矩阵的线性组合 \(W \approx \sum_i \alpha_i B_i\),属于一阶量化。极低位宽(2-bit)下表达能力严重不足。

现有痛点:BCQ 在 2-bit 无数据量化 DeiT-S 上仅 10.83% 准确率(接近随机),因为线性组合只能覆盖矩阵空间的有限子集。增加二值矩阵数量只能线性提高表达力。

核心矛盾:极压缩条件下存储预算极有限,线性组合的表达能力增长太慢——\(k\) 个二值矩阵只覆盖 \(O(k)\) 的信息。需要在同样存储下获得更强的表达能力。

本文目标 设计一种超越线性组合的二值量化方案,在相同存储预算下获得更高的重建精度。

切入角度:用二值矩阵的乘积(二次项)替代线性组合——\(Y_i Z_i\) 的乘积在相同存储下提供指数级更多的组合可能性。

核心 idea:用 \(W \approx \sum_i (r_i Y_i Z_i + s_i Y_i \mathbb{1} + t_i \mathbb{1} Z_i) + u\mathbb{1}\) 的二次二值表示替代线性二值编码,通过 PUBO 优化求解。

方法详解

整体框架

输入权重矩阵 \(W\) → 贪心逐项分解 → 每项求解一个 PUBO(多项式无约束二值优化)子问题 → 用扩展 AMFD 的连续松弛+温度退火求解 → 阶跃函数二值化 → 闭式求解缩放系数 → 残差传播到下一项

关键设计

  1. 二次二值表示(BQQ Representation):

    • 功能:用二值矩阵乘积表示权重
    • 核心思路:\(W \approx \sum_i (r_i Y_i Z_i + s_i Y_i \mathbf{1}_Z + t_i \mathbf{1}_Y Z_i) + u\mathbf{1}\),其中 \(Y_i \in \{0,1\}^{m \times l}\)\(Z_i \in \{0,1\}^{l \times n}\)
    • 设计动机:\(Y_i Z_i\) 的乘积在 \(l\) 维中间维度上生成 \(m \times n\) 矩阵,组合可能性为 \(2^{m \cdot l + l \cdot n}\),远超线性组合的 \(2^{m \cdot n}\)(当 \(l\) 选取合理时)。额外的交叉项 \(Y_i \mathbf{1}\)\(\mathbf{1} Z_i\) 处理行/列偏移
  2. PUBO 求解(扩展 AMFD):

    • 功能:求解每个子问题的二值矩阵 \(Y_i, Z_i\)
    • 核心思路:将离散优化松弛为连续优化——\(x_k \in [0,1]\) 代表二值变量的概率。目标变为最小化 \(KL(P_{MF} \| P_C)\)。温度退火从 \(T=0.2\) 降到 \(T=0.005\) 经过 50000 步,逐步逼近离散解
    • 设计动机:AMFD 原本只处理 QUBO(二次),本文扩展到 PUBO(多项式)以处理 \(Y_i Z_i\) 这样的二值矩阵乘积项
  3. 缩放系数闭式解:

    • 功能:固定二值矩阵后最优化缩放系数 \(r_i, s_i, t_i, u\)
    • 核心思路:构建 Hessian 矩阵求逆得到闭式解(Algorithm 2, Eq. 10),计算量极小
    • 设计动机:将非凸混合整数问题分解为"二值变量用 AMFD"+"连续系数用闭式解"的交替优化

损失函数 / 训练策略

  • 目标函数:\(\min \|W - \hat{W}\|_F^2\)(Frobenius 范数重建误差)
  • 贪心分解:每项处理残差 \(W_{res}^{(i)}\),逐项减小重建误差
  • 无需训练数据(data-free)或仅用少量校准数据

实验关键数据

主实验(ViT 2-bit 量化 ImageNet Top-1)

模型 方法 无数据 2-bit 有校准 2-bit
DeiT-S BCQ 10.83% 60.13%
DeiT-S BQQ 58.25% 69.41%
DeiT-B BCQ 12.99%
DeiT-B BQQ 72.09%

消融实验

量化方式 MSE(矩阵压缩) 说明
线性 BCQ 一阶表达力不足
BQQ(二次) 显著更低 二次项增强表达力
BQQ + 联合优化 理论最优 当前贪心方法的上界

关键发现

  • BQQ 在无数据 2-bit DeiT-S 上从 10.83% 提升到 58.25%——首次使 2-bit ViT 量化达到实用水平
  • 对奇异值谱偏斜的矩阵(ViT 中常见)改善最大
  • 3-bit/4-bit 上也一致超越 BCQ,在多种 ViT(DeiT-S/B, Swin-T/S)上有效
  • 分组量化(更紧凑)下仍保持 SOTA

亮点与洞察

  • 从线性到二次的质变:一阶量化是现有方法的共同假设,BQQ 打破了这个限制,用矩阵乘积而非线性组合大幅提高表达力
  • 无数据场景的突破性改善:47% 准确率提升说明二次编码在极限压缩下的优势是压倒性的
  • AMFD 到 PUBO 的扩展有通用价值:这种二值优化技术可以应用到其他需要乘积约束的组合优化问题

局限与展望

  • 贪心逐项分解是次优的,联合优化所有二值矩阵可能更好但计算量大
  • AMFD 优化 50000 步,对大矩阵可能耗时
  • 仅在 ViT 上验证,未测试 LLM 权重量化
  • 中间维度 \(l\) 的选择需要手动调节

相关工作与启发

  • vs BCQ: BCQ 是线性二值编码的代表,BQQ 用二次编码在同样存储下表达力更强
  • vs COMQ/ERQ: 这些方法改进量化策略但仍在一阶框架内,BQQ 开辟了二次编码新方向
  • vs RepQ-ViT: RepQ 针对 ViT 特性设计量化策略,与 BQQ 的编码方式正交可组合

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 二次二值编码是全新的量化范式
  • 实验充分度: ⭐⭐⭐⭐ 多种 ViT + 多种位宽 + 矩阵压缩基准
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰
  • 价值: ⭐⭐⭐⭐⭐ 极低位宽量化的里程碑式突破