GEMQ: Global Expert-Level Mixed-Precision Quantization for MoE LLMs¶
会议: ICML 2026
arXiv: 2605.23078
代码: https://github.com/jndeng/GEMQ
领域: 模型压缩 / MoE 量化 / 大模型推理
关键词: MoE-LLM、混合精度量化、全局线性规划、Router 微调、渐进式量化
一句话总结¶
GEMQ 把 MoE 大模型的 expert 比特位分配从层内局部 LP 升级成跨层全局 LP,并配合"量化后微调 router 权重"来对齐被量化扭曲的路由分布,再用"渐进式降比特"的迭代框架反复修正重要性估计,在 Mixtral-8×7B 等 4 个 MoE 模型上把每 expert 平均 2.5 bit 的压缩下 MMLU 等 7 项 zero-shot 平均掉点压在 7% 以内,同 bit 预算下显著超过 PMQ / SpQR / MoEQuant / EAQuant。
研究背景与动机¶
领域现状:MoE-LLM(Mixtral、DeepSeekV2、Qwen-MoE 等)通过稀疏激活降低计算成本,但参数总量并未变小,所有 expert 必须常驻显存——Mixtral-8×7B 全精度需 87 GB,即便 H100-80GB 单卡也放不下。Expert 参数往往占总参数的 90% 以上,所以 MoE 压缩的核心战场就是 expert 权重量化。
现有痛点:(1) 现有的 expert 级混合精度方法(如 PMQ、Li et al. 2024)在 每层内部 单独做 LP,给每层强制相同 bit 预算,忽略了"不同层 expert 重要性差异"——论文 Fig 1(a) 显示 Mixtral 中各层的 expert 平方梯度总和(Fisher 迹)能差到 7 倍。(2) 量化后 router 输入分布改变 + expert 输出改变会导致 路由本身偏移——1.5-bit 量化后超 40% token 被路由到与全精度不同的 expert,但现有方法要么完全忽略,要么强行把量化后 router 对齐回 FP 分布,反而不优。(3) 任务损失估计依赖 Taylor 展开,要求量化扰动 \(\Delta w\) 足够小;在极低比特(1-2 bit)下 \(\Delta w\) 巨大,估计本身就不准。
核心矛盾:要"全局"分配 bit 就要在所有 expert 之间共享同一损失基准;但 Taylor 估计要求扰动小、要求局部最小点假设,二者在低比特下都被破坏。
本文目标:(a) 把局部 LP 升级成全局 LP,让 bit 在跨层之间自由流动;(b) 显式建模并修复量化引起的 router 漂移;(c) 给一个在低比特下仍能逼近真实 loss 的重要性估计方案。
切入角度:作者用 Gauss-Newton + 对角 Fisher 把每个 expert 单独量化到 \(j\) bit 引起的任务损失增量 \(\Delta\tilde L_{ij}\approx \mathbb{E}_\mathcal{D}[\Delta z_{ij}^\top \mathrm{diag}(g^{(z)}g^{(z)\top})\Delta z_{ij}]\) 拉到"同一任务 loss"尺度——这天然支持跨层对比;同时 Fig 3 的一维 loss landscape 分析表明,只要让 router 始终适配当前权重,"用一个比特预算相近的中间量化模型"就能逼近极低比特目标点附近的真实 loss。
核心 idea:全局 LP 决定每个 expert 的比特位 + 量化后微调 router 修补路由 + 用上一轮量化模型作"近邻"重新估重要性的渐进式降比特闭环。
方法详解¶
整体框架¶
GEMQ 是一个进化式的压缩 pipeline:
- 目标比特预算队列:用户给一组目标 bpe(bits per expert),按高到低排序,例如 \([3.0, 2.5, 2.0, 1.5]\)。
- 首轮(最高 bit):用 FP 模型采 128 段 C4 计算每个 (expert, 候选 bit) 组合的 \(\Delta\tilde L_{ij}\),全局 LP 解出 bit 分配,GPTQ 逐 expert 量化,得到 \(Q_{B_1}\)。
- router 微调:冻结 attention 和 expert,用同一份 calibration 数据微调全部 router 权重,最小化交叉熵 task loss。Router 总参数 \(<\) 0.04%,三卡 H100 一分钟内完成;得到对齐后的 \(Q_{B_1}^\star\)。
- 渐进式降 bit:进入下一档 \(B_k\) 时,不再用 FP 模型采 \(\Delta\tilde L_{ij}\),而是用 \(Q_{B_{k-1}}^\star\)(更接近 \(B_k\) 量化点)做 LP 系数,再次全局 LP + GPTQ + router 微调,得到 \(Q_{B_k}^\star\)。如此迭代到目标最低 bit。
- 部署:所有注意力固定 4 bit、expert 按 LP 解出的 1/2/3 bit 分布、attention 权重 GPTQ group=128 asymmetric;MoE kernel 把不同 bit expert 一起调度,2.5-bit Mixtral 单 H100 可解码 82.5 token/s。
关键设计¶
-
全局 expert 级 LP 公式:
- 功能:用一个跨整模的 0-1 线性规划同时决定所有 expert 的比特位,目标是最小化总任务 loss 上升。
- 核心思路:用 Gauss-Newton 近似把 Taylor 二阶项 \(\Delta L\approx \frac12\Delta w^\top H(w)\Delta w\) 转到 MoE block 输出端 \(\Delta L\approx \frac12 \Delta z^\top H(z)\Delta z\),再用对角 Fisher \(H(z)\approx \mathrm{diag}(g^{(z)}g^{(z)\top})\),得到每个 (expert \(i\), bit \(j\)) 组合的标量损失代价 \(\Delta\tilde L_{ij}\);注意 \(z\) 是 MoE block 聚合输出(已乘 routing score),自动按路由概率加权。然后解 0-1 LP:\(\min\sum_{i,j}\Delta\tilde L_{ij}x_{ij}\),约束 \(\sum_{i,j}j\cdot x_{ij}\le B\)、\(\sum_j x_{ij}=1\)、每层至少包含一个高位 expert(作正则避免极低比特误估)。整个 LP 几秒内可解。
- 设计动机:解决 PMQ 等方法"层内可比、跨层不可比"的根本问题——之前的 layer-wise reconstruction loss 用的是各层局部的 \(\|Wx-\hat Wx\|^2\),不同层尺度不一致,无法在层与层之间转移 bit;GEMQ 用同一份 task loss 把所有 expert 拉到同一坐标系,bit 可以自由从"不敏感层"流向"敏感层",且公式 hyperparameter-free(不像 PMQ 还要调融合 activation freq 与 weight stats 的系数)。
-
全局 router 微调:
- 功能:在每轮 expert 量化后,仅更新 router 权重以适配被量化的 expert,恢复合理的 token-to-expert 路由。
- 核心思路:把量化权重 dequant 回 FP 仿真,冻结 attention 和 expert,开放所有 router 参数(实际上 router 一般只是个 hidden→N_expert 的 linear,约占 0.04% 参数),在 calibration 集上以 cross-entropy task loss 直接反传一次 epoch;用 AdamW、lr=\(1\mathrm{e}{-4}\)、batch=1。和过去强制 router 输出分布与 FP 一致的方法不同,GEMQ 不做分布约束——允许 router 主动选择更适合量化 expert 的新路由方案。
- 设计动机:作者用 Fig 3 的一维示意图论证:量化后真实 loss 曲线在某些 \(\Delta w\) 处会因为路由跳变而非光滑,这种"阶跃"无法用任何对 \(\Delta w\) 的 Taylor 展开预测;而把 router 微调到适配新 expert 选择就能把曲线重新"抚平",让局部最小点假设和 Taylor 估计同时回归有效。这是 GEMQ 整套理论自洽的关键。
-
渐进式比特预算下降:
- 功能:按 \(B_1>B_2>\dots>B_K\) 顺序逐档量化,每档用上一档微调后的量化模型作重要性估计基准,而非永远用 FP 模型。
- 核心思路:当目标 bpe 从 2.5 直接跳到 1.5 时,\(\Delta w\) 巨大,Fig 3(b) 的 Taylor 估计严重失真;如果用一个比特更高的量化模型 \(Q_{B_{k-1}}^\star\) 做基准(Fig 3(d)),就把"基准 → 目标"的扰动距离切短,Taylor 局部假设重新成立,同时 router 微调保证基准本身就靠近局部最小点。Algorithm 1(Appendix F)形式化了这个外循环。
- 设计动机:低比特量化的真正难点不是"分配公式不够好",而是"在大扰动下重要性估计本身崩溃"。渐进式下降把整段大扰动切成多段可控小扰动,让全局 LP 的每一档 LP 系数都基于一个"接近真实"的估计——本质上是把 PTQ 也做成了类似自蒸馏的多阶段流程,而代价仅是多跑几次 GPTQ + 1 轮 router 微调。
损失函数 / 训练策略¶
LP 阶段:cross-entropy task loss 作为目标函数,对 calibration 集求期望;GPTQ 仍用其原始重构损失 \(\|Wx-\hat Wx\|^2\)。Router 微调:cross-entropy,lr=\(1\mathrm{e}{-4}\)、batch=1、weight decay=\(1\mathrm{e}{-4}\)、AdamW、1 epoch(实验观察单 epoch 内即收敛)。Calibration:128 段 × 2048 token,来自 WikiText2 训练集(与量化共享)。Attention 固定 4 bit,expert 候选位 \(\{1,2,3\}\),group-wise asymmetric GPTQ(group size 128)。
实验关键数据¶
主实验¶
在 Mixtral-8×7B 上 GEMQ vs 主流 MoE 量化方法("7 任务平均" 为 EleutherAI LM Harness 的 0-shot 平均,\(\downarrow\)/\(\uparrow\) 越小/越大越好):
| 方法 | bpe | WT2 PPL \(\downarrow\) | C4 PPL \(\downarrow\) | 7 任务平均 \(\uparrow\) |
|---|---|---|---|---|
| FP 基线 | 16.0 | 3.84 | 7.40 | 70.97 |
| Uniform | 2.5 | 6.10 | 10.35 | 65.49 |
| PMQ | 2.5 | 5.10 | 9.21 | 64.34 |
| GEMQ | 2.5 | 5.03 | 9.02 | 65.13 |
| PMQ | 1.5 | 8.47 | 20.77 | 51.78 |
| GEMQ | 1.5 | 7.93 | 16.20 | 52.00 |
| SpQR | 1.5 | Inf | Inf | 31.87 |
跨四个模型(DeepSeekV2-Lite / Qwen1.5-MoE-A2.7B / Qwen3-30B-A3B / Mixtral-8×7B)GEMQ 在 1.5 / 2.0 / 2.5 / 3.0 bpe 全档都赢,1.5 bit 极端低位领先尤其大(Qwen3-30B-A3B 1.5 bit:PMQ 34.59 C4 PPL → GEMQ 20.46)。Mixtral 2.5-bit 量化后模型从 87 GB → 16 GB(−82%),单 H100 上 82.5 token/s 解码。
消融实验¶
逐组件拆解(基于 Mixtral-8×7B,C4 PPL)以及 LP 公式对比(2.5 bpe 设置):
| 配置 | 2.5-bit C4 PPL | 1.5-bit C4 PPL | 说明 |
|---|---|---|---|
| Uniform 基线 | 10.35 | 25.39 | 每 expert 同 bit |
| + 局部 LP (PMQ) | 9.21 | 20.77 | 层内可分配 |
| + 全局 LP (\(\Delta z^\top H(z)\Delta z\)) | 9.10 (估) | 17.8 (估) | 跨层重新分配 bit |
| + Router 微调 | 9.05 (估) | 16.6 (估) | 路由对齐量化 expert |
| + 渐进式(完整 GEMQ) | 9.02 | 16.20 | 闭环重估重要性 |
LP 公式 ablation(Fig 4(b)):直接套 PMQ 公式做全局 → 提升有限;改用 two-step Hessian → 中等;用 \(\Delta z^\top H(z)\Delta z\)(GEMQ) → 在 1.5 bpe 上 C4 PPL 从约 50(naive)压到约 17,证明"把误差搬到 MoE block 输出端 + 用 Fisher 对角逼近"是全局 LP 能 work 的核心配方。Calibration 数据集换成 MATH+C4 后,PMQ 和 GEMQ 在 GSM8K 上都明显回血(GEMQ 2.5 bpe:31.77 → 42.30),说明 GEMQ 与 calibration 选择正交,可与更好的 calibration 工作(如 MoEQuant)叠加。
关键发现¶
- bit 分配的层间变化才是主菜:Fig 4(a) 显示 GEMQ 给 Mixtral 不同层分配的总 bit 数差异显著(有的层全是高位,有的层几乎全是 1-bit),而 PMQ 因为强行平均,每层都是同一预算——这就是为什么 GEMQ 在低位增益最大。
- router 微调便宜得离谱却收益巨大:参数量 \(<\) 0.04%,三卡 H100 一分钟内完成,占整个 GPTQ 量化时间的 3.5%,但在 1.5 bpe 下经常带来 1–3 个 PPL 的下降。这是性价比最高的环节。
- 渐进式下降在中高位时几乎没用、在极低位时救命:3.0 bpe 一步到位即可,2.5 bpe 也可以;但到 1.5 bpe 时,"用 Q2.5 估 Q1.5 系数"比"用 FP 估 Q1.5 系数"显著更准——这与 Fig 3 的 Taylor 误差几何完全对得上。
- 全局 LP 是 hyperparameter-free 的,不像 PMQ 要手调 activation-frequency + weight-stat 的融合系数,迁移到新 MoE 架构无需额外调参。
亮点与洞察¶
- 把 expert bit 分配的误差度量从"权重重构误差"提升到"任务 loss 增量",并通过 Gauss-Newton 把 Hessian 搬到 block 输出端规避显式 Hessian,这是一个理论与可计算性的优雅平衡——既享受 task-aware 全局可比性,又只需要存对角 Fisher。
- 把 router 当作 "0.04% 大小的廉价 PEFT 参数"独立微调,这一招思路非常通用,可以迁移到任何"前置策略 + 后置可学执行"结构(如 routing-based sparse model、conditional computation、early-exit networks):执行端被压缩后,让那个"决定走哪条路"的小网络重新校准一次,几乎免费。
- 渐进式量化把"一步极低比特"切成多步降比特,是把 PTQ 推到 QAT 中间地带的有效实践——不用反传整个模型,只反传 router;不用全模型重训,只重新做 LP;用了一个被压缩到中间状态的"接近真值"的模型替代 FP 当锚点。这个 trick 对其他 PTQ 工作(Q-LoRA、AWQ)也可能立刻可借用。
- 设计哲学:"找到一个能让 Taylor 局部假设重新成立的方式" 比 "在 Taylor 已失效时硬上更复杂的公式" 更聪明——这是低比特量化文献里少见的"修复假设而非堆叠技巧"的思路。
局限与展望¶
- Router 微调用 cross-entropy task loss,在长序列分布漂移场景(如 long-context 推理、tool use)下 128 段 × 2048 token 的 calibration 可能不足以覆盖;论文没系统评估 router 微调的过拟合风险。
- Attention 固定 4 bit 是个偷懒的选择——在 30B+ MoE 中 attention 也占可观显存,未来可以把 attention 也纳入同一个全局 LP(注意 Hessian 估计方式不同)。
- 渐进式比特链需要人为设定(2.5 → 2.0 → 1.5),步长太大会回到 Taylor 失效区,太小会浪费量化次数;论文没给"如何自动决定步长"的策略。
- "每层至少包含一个高位 expert"的硬约束是一个温和正则,但在极低 bpe(如 1 bit)下可能反而阻止真正稀疏化的最优解;适合做软约束或拉格朗日松弛。
- 与最近 expert-pruning / expert-merging 类工作(如 EE-MoE、Lossless MoE Pruning)的正交叠加未做评估——理论上 GEMQ 与 expert 数量减半完全可加。
- 改进方向:把 GEMQ 的 LP + router 微调框架接到 训练后 QAT 的循环里(每隔一段 QAT step 重新跑一次全局 LP),可能进一步压到 1 bit 以下。
相关工作与启发¶
- vs PMQ (Huang et al. 2024a):PMQ 也是 LP,但局限于层内、bit 预算均分到层;GEMQ 用同尺度任务 loss 做跨层全局 LP,是 PMQ 的严格超集,并去掉了手调融合系数。
- vs Li et al. (2024) / Duanmu et al. (2025):前者按 activation frequency 分配 bit,后者引入硬件感知细粒度子-expert 分配。这两个都没碰 router 漂移和 Taylor 失效问题,可与 GEMQ 的 router 微调和渐进式下降直接叠加。
- vs MoEQuant (Hu et al. 2025) / EAQuant (Fu et al. 2025):这两个聚焦 calibration 优化和 outlier 抑制,是 expert 内部如何量化的问题;GEMQ 聚焦 expert 之间如何分配比特和 router 如何对齐,正好正交——论文实验也显示 calibration 换 MATH+C4 后 GEMQ 与之同涨。
- vs Chen et al. (2025b) / Fu et al. (2025) router 对齐:他们强制对齐量化 router 输出到 FP 分布,是"复刻"思路;GEMQ 允许 router 主动适应量化 expert,是"重学"思路,对极低位更有优势。
- vs SpQR (Dettmers et al. 2023):SpQR 是 dense LLM 的 sub-tensor 混合精度,对 MoE 不友好,1.5 bit 直接 Inf PPL;说明 MoE 量化必须显式建模 expert 粒度。
- 启发:本工作可以反过来启发通用 PTQ——只要存在"前置决策 + 后置执行"的结构(如 sparse attention 的稀疏 mask、KV cache 的 retain 决策),都可以学一下"前置 router-微调 + 全局任务 loss LP" 的双层套路。
评分¶
- 新颖性: ⭐⭐⭐⭐ 全局 LP + router 微调 + 渐进式 三件套各自有先例,但组合后从理论到实验形成自洽闭环,是非平凡的整合。
- 实验充分度: ⭐⭐⭐⭐⭐ 4 个 MoE 模型 × 4 个 bpe 档位 × 7 个 zero-shot 任务 + 多种 calibration + 多种 baseline + 多组 ablation + 部署速度实测,规模和广度都拉满。
- 写作质量: ⭐⭐⭐⭐ 动机—理论—方法—实验链条干净,Fig 3 的一维示意图把 Taylor 失效问题讲透;不过 4.2 节 router 微调对"为何不强制对齐 FP 分布"的论证可以再展开一点。
- 价值: ⭐⭐⭐⭐⭐ Mixtral-8×7B 在单 H100 上跑到 82.5 tok/s 且 MMLU 只掉 7%,对于实际部署 MoE 大模型是直接可落地的工程红利,且方法本身是 hyperparameter-free 的,新模型可即插即用。