Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0TmVqOpBbK
代码: 无
领域: LLM效率
关键词: 缩放定律, 推理效率, 模型架构, MLP-注意力配比, GQA

一句话总结¶

本文把 Chinchilla 缩放定律扩展成"条件式"版本，显式把隐藏维度 \(d_{model}\)、MLP-注意力参数配比 \(r_{mlp/attn}\)、GQA 三个架构因素塞进 loss 预测，并配一套搜索框架，在固定参数/训练 token 预算下找到既准又快的架构；据此训出的 Panda / Surefire 系列模型相比 LLaMA-3.2 最高提升 2.1% 准确率、42% 推理吞吐。

研究背景与动机¶

领域现状：以 Kaplan、Chinchilla 为代表的缩放定律研究告诉我们，loss 与参数量 \(N\)、训练 token 数 \(D\) 之间存在幂律关系 \(L(N,D)=E+A/N^{\alpha}+B/D^{\beta}\)，于是大家把资源都砸在"把模型和数据做大"上。

现有痛点：传统缩放定律只盯着训练，完全不管推理成本——而在真实部署里推理才是反复发生、占大头的开销。更关键的是，它们把模型当成一个只由 \((N,D)\) 决定的黑盒，忽略了架构本身对推理快慢和精度的影响。论文用 Figure 2 给了个反直觉的例子：Qwen2.5-1.5B 参数更多，吞吐却比 Qwen3-0.6B 更高——在层数相同的情况下，更大的隐藏维度、GQA 和更高的 MLP 配比让它跑得更快。这说明"参数越少越快"根本站不住脚，架构才是关键变量。

核心矛盾：精度和推理效率之间存在 trade-off，但现有缩放定律既没有刻画这个 trade-off，也没法把多个架构因素一起纳入预测。已有的两个尝试都有硬伤：Sardana 等人把训练+推理总 FLOPs 写进定律，但要求估计模型一生生成的总 token 数，不现实；Bian 等人只引入了"宽高比"（hidden size / 层数）单一因素，且砍层会损害微调后的泛化，框架也不通用。

本文目标：在固定层数 \(n_{layer}\)、固定非嵌入参数 \(N_{non\text{-}embed}\) 和训练 token 预算的前提下，搞清楚 \(d_{model}\)、\(r_{mlp/attn}\)、GQA 这三个架构因素分别怎么影响推理效率和精度，并据此自动选出最优架构。

切入角度：作者注意到 LLaMA、Qwen、Gemma、Phi 这些参数量相近的开源模型，架构选择却差异巨大——这恰恰说明"在固定参数预算下重新分配架构"有很大的优化空间。于是他们固定层数（因为变层数会同时大幅扰动推理成本和精度），只在剩下三个因素上做文章。

核心 idea：把架构信息作为"条件"加进 Chinchilla 定律——先用标准 Chinchilla 拿到最优 loss 当参照点，再用一个关于 \(d_{model}/\sqrt{N}\) 和 \(r\) 的 U 形校准函数去预测各架构变体的 loss，最后解一个"在 loss 约束下最大化推理效率"的优化问题选架构。

方法详解¶

整体框架¶

整篇方法围绕一个目标：在固定 \((N, D)\) 预算下，找到既不掉精度、又跑得快的解码器架构。它分三步走。第一步是实证刻画：通过受控消融，搞清 \(d_{model}\)、\(r_{mlp/attn}\)、GQA 三个因素各自怎么影响推理吞吐（§3.2）和训练 loss（§3.3）。第二步是把这些规律固化成一个条件式缩放定律：用标准 Chinchilla 给出的最优 loss \(L_{opt}(N,D)\) 当参照基准，再乘/加上一个刻画架构偏离的校准项，从而能用小模型拟合、外推到大模型。第三步是搜索：在"loss 不超过阈值 \(L_t\)"的约束下，最大化推理效率，连续因素 \((d_{model}, r)\) 靠解析求导得到，离散的 GQA 靠局部枚举搜索。最终产出两类模型——Panda（直接取最小 loss 的最优配置）和 Surefire（在 loss 约束下做帕累托最优、最大化吞吐）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["固定 N, D, 层数<br/>给定架构搜索空间 P"] --> B["架构因素对推理效率的影响<br/>消融 d_model / r / GQA → 吞吐规律"]
    B --> C["条件式缩放定律<br/>Chinchilla L_opt 作参照 + U形校准项"]
    C --> D["推理高效架构搜索<br/>loss≤L_t 下解 d_model,r + GQA 局部搜索"]
    D --> E["最优架构<br/>Panda / Surefire 模型"]

关键设计¶

1. 架构因素对推理效率的影响：拆清 \(d_{model}\)、\(r\)、GQA 各自怎么提速

要在固定参数预算下选架构，第一件事是搞清"动哪个旋钮能让推理变快"。作者基于 LLaMA-3.2 / Qwen3 dense 模型构造架构变体，做了三组受控消融：固定 \(N_{non\text{-}embed}\)、\(r\)、GQA，只变 \(d_{model}\) 和注意力头数 \(n_{head}\)；固定 \(N_{non\text{-}embed}\)、\(d_{model}\)、GQA，只变 \(r\) 和中间维度；固定其余只变 GQA。结论一致且清晰：更大的隐藏维度 \(d_{model}\)（即更少的注意力头）、更高的 \(r_{mlp/attn}\)、更大的 GQA，都能提升推理吞吐。原因有二——更大的 \(d_{model}\) 和 \(r\) 会减少总推理 FLOPs；同时它们缩小了 KV cache，降低推理时的 I/O 开销。GQA 虽然只是把 key/value 矩阵缩小、对参数量影响不大，但对吞吐影响显著，这一点和 Ainslie 等人的观察吻合。这组消融是后面建模和搜索的事实基础：它告诉我们"为了快，应该把参数往 MLP 和大隐藏维度倾斜"，但单看效率会一路推向极端配置，所以必须再引入精度这一约束。

2. 条件式缩放定律：用 Chinchilla 当参照、再叠一层 U 形校准

光追求快会损精度，所以核心难点是预测"架构变体的 loss"。作者先观察到一个稳定规律：固定其他因素时，loss 关于 \(d_{model}/\sqrt{N_{non\text{-}embed}}\) 和关于 \(r_{mlp/attn}\) 都呈 U 形曲线，且不同模型尺寸下最优点几乎一致（Figure 4、5）。归一化用 \(\sqrt{N}\) 是因为在固定 \(r\) 下注意力参数满足 \(4d_{model}^2 \propto N_{attn}=N_{non\text{-}embed}\cdot\frac{1}{r+1}\)，所以 \(d_{model}\) 大致随 \(\sqrt{N}\) 线性增长。这个 U 形也带来一个有意思的结论：近年开源模型把越来越少的参数分给注意力并非普遍最优——注意力配比存在内部最优点，往任一方向偏离都掉点。

直接拟合一个统一的 \(L(d/\sqrt{N}, r, N, D)\) 不现实，于是作者提出两步式"参照 + 校准"框架：第一步对给定 \((N,D)\) 用 Chinchilla 取最优 loss 作参照 \(L_{opt}(N,D)=\min\big(E+A/N^{\alpha}+B/D^{\beta}\big)\)；第二步用形如 \(c_0+c_1\log x+c_2/x\) 的函数（恰好刻画 U 形且 \(x\) 增大时增长亚线性）分别校准 \(d_{model}/\sqrt{N}\) 和 \(r\) 的偏离。具体给出乘性和加性两种校准：

\[L(d/\sqrt{N}, r \mid N, D) = \Big(a_0 + a_1\log\tfrac{d}{\sqrt{N}} + a_2\tfrac{\sqrt{N}}{d}\Big)\cdot\Big(b_0 + b_1\log r + b_2/r\Big)\cdot L_{opt}\]

\[L(d/\sqrt{N}, r \mid N, D) = \Big(a_0 + a_1\log\tfrac{d}{\sqrt{N}} + a_2\tfrac{\sqrt{N}}{d}\Big) + \big(b_1\log r + b_2/r\big) + L_{opt}\]

其中 \(a_i, b_i\) 是跨所有 \((N,D)\) 共享的可学习参数，用 Levenberg-Marquardt 最小二乘拟合。两种形式都假设 \(d_{model}\) 和 \(r\) 对 loss 的影响可分离——实验显示这个简化够用，更复杂的联合非可分形式并没有更好。相比"把架构硬塞进一个大公式"，这种"先拿 Chinchilla 定一个锚点，再小幅校准架构偏离"的思路既好拟合，也能稳健外推到更大模型。

3. 推理高效架构搜索：连续因素求导、GQA 局部枚举

有了能预测 loss 的条件定律，选架构就转化为一个约束优化（Eq. 4）：

\[\arg\max_{P} I_N(P)\quad \text{s.t.}\quad L(P\mid N,D)\le L_t\]

其中 \(I_N(P)\) 是架构 \(P\) 的推理效率，\(L_t \ge L_{opt}\) 是可接受的最大训练 loss。对连续的 \((d_{model}, r)\)，直接解 \(\partial L/\partial d_{model}=0\)、\(\partial L/\partial r=0\) 拿到最优配置。GQA 比较麻烦：它对效率影响大，但和 loss 没有稳定的连续关系、波动很大，难以建模。好在一旦 \(N_{non\text{-}embed}\)、\(d_{model}\)、\(r\) 固定，GQA 的搜索空间很小（它必须是 \(n_{head}\) 的质因子），所以作者做局部 GQA 搜索：枚举可行值，一旦性能跌破 GQA=4 的基线就早停。整套流程汇总成 Algorithm 1——若没有现成 \(L_{opt}\) 就先训小模型拟合 Chinchilla，再解约束优化定 \((d_{model}, r)\)，最后局部搜 GQA，输出最终架构 \(\{P, \text{GQA}\}\)。由于 \(I_N(P)\) 强依赖硬件和推理配置、难以解析，实践中作者改为在 A100+vLLM 上枚举满足 loss 约束的配置、取帕累托最优点，得到 Surefire 模型。

损失函数 / 训练策略¶

所有模型都是 LLaMA-3.2 风格的 decoder-only transformer，\(N_{non\text{-}embed} \in \{80\text{M}, 145\text{M}, 297\text{M}, 1\text{B}, 3\text{B}\}\)，训练数据采样自 Dolma-v1.7（按 15 个来源的占比采样以保持分布）。每个模型训练 \(100\,N_{non\text{-}embed}\) 个 token（约 5× Chinchilla 最优）以确保收敛。每个 \(d_{head}\) 在 \(\le 1\text{B}\) 时固定为 64、\(\ge 3\text{B}\) 时固定为 128，靠调整 \(n_{head}\) 而非投影维度来维持 \(r\) 恒定。缩放定律拟合采用渐进式：Task 1 用 80M 拟合、评 145M；Task 2 用 80M+145M、评 297M；Task 3 用 80M+145M+297M、评 1B。

实验关键数据¶

主实验¶

在 1B 和 3B 尺度上验证：Panda 取缩放定律预测的最优配置，Surefire 在 loss 约束下取帕累托最优；Avg. 为 9 个下游任务（ARC-E/C、LAMBADA、HellaSwag、OpenBookQA、PIQA、SciQ、WinoGrande、CoQA）的平均零样本准确率。

模型	\(d_{model}\)	\(r\)	GQA	Loss (↓)	Avg. (↑)	备注
LLaMA-3.2-1B	2048	4.80	4	2.803	54.9	基线
Panda-1B	2560	1.07	4	2.782	57.0	+2.1% 准确率
Surefire-1B	2560	3.60	9	2.804	55.4	帕累托最优
LLaMA-3.2-3B	3072	3.0	3	2.625	61.9	基线
Panda-3B	4096	1.0	3	2.619	62.5	+0.6% 准确率
Surefire-3B	4096	1.0	7	2.620	62.6	帕累托最优

吞吐方面，Surefire-1B / 3B 在所有 batch size 下都比 LLaMA-3.2 更快，最高 42% 更高吞吐（vLLM + A100）；换用 SGLang + H200 时最高达 47%，说明效率收益可跨服务栈和硬件平台迁移。

消融实验¶

配置	关键指标	说明
拟合定律预测精度（Task 1-3）	MSE 0.0001-0.0002，Spearman 0.745-0.891	跨尺度外推预测 loss 准确、排序一致
排除 \(r\) 异常值（\(r\in[0.5,5]\) vs 含 0.1/12.6）	含异常值 Spearman 明显下降	拟合应排除极端配比
加性 vs 乘性校准	MSE / Spearman 相近	两种简单校准都够用
拟合数据策略：Panda-3B (80M-297M) vs Panda-3B° (仅 1B)	Loss 2.619 → 2.606	用 1B 数据拟合 3B 预测更准，系数随尺度漂移

关键发现¶

条件定律外推稳健：用小模型拟合、外推到大模型，MSE 始终很低、Spearman 高，验证了"参照 + 校准"两步法的有效性。
校准形式不敏感：乘性和加性校准效果接近，更复杂的非可分联合形式没有优势——说明把 \(d_{model}\) 和 \(r\) 的效应当作可分离是合理简化。
注意力配比有内部最优：业界"参数越来越少分给注意力"的趋势并非普遍最优，Panda 系列把 \(r\) 从 LLaMA 的 3-4.8 拉回到约 1.0，反而 loss 更低、精度更高。
系数随尺度漂移：80M 这类极小模型不一定能可靠预测 3B 行为，用更接近目标尺度的数据（如 1B）拟合更准，这是该方法外推时需注意的 caveat。

亮点与洞察¶

"参照点 + 轻量校准"是化繁为简的关键 trick：不去硬拟合一个含 \(d, r, N, D\) 的统一缩放定律，而是先用成熟的 Chinchilla 锚定 \(L_{opt}\)，再叠一个小校准项——既好拟合又稳健，这个解耦思路可迁移到任何"想在已有缩放定律上加新维度"的场景。
U 形 + \(c_0+c_1\log x+c_2/x\) 的函数选择很讲究：这个形式天然刻画"两边高、中间低"的 U 形且增长亚线性，把经验曲线直接编码进可拟合公式，比纯多项式拟合更有归纳偏置。
把推理效率当约束、把精度当目标的优化范式很实用：因为 \(I_N(P)\) 依赖硬件难解析，干脆改成"在 loss 约束下枚举求帕累托最优"，绕开了对效率建模的难点。
最"啊哈"的点是反直觉的架构选择——通过定律预测，最优模型应该降低 MLP 配比、增大隐藏维度，这与近年大模型的设计趋势相反，却同时拿到了更高精度和更高吞吐。

局限与展望¶

固定层数是前提：方法明确把 \(n_{layer}\) 固定（因为变层数会同时大幅扰动效率和精度），所以它回答的是"给定层数下怎么分配剩余架构"，而非完整的架构搜索；深度这一重要维度被排除在外。
可分离假设：乘性/加性校准都假设 \(d_{model}\) 和 \(r\) 对 loss 的影响可分离，虽然实验上够用，但在更极端配置或更多架构因素（如不同注意力变体）下是否成立未充分检验。
系数随尺度漂移：作者自己发现用 80M 外推 3B 不如用 1B 数据准，说明定律系数并非完全尺度不变，外推到 7B/更大时仍需重新拟合验证。
GQA 建模偏经验：GQA 与 loss 无稳定连续关系，只能局部枚举+早停，缺乏像 \(d_{model}/r\) 那样的解析刻画。
评测主要在 1B-3B、100B token 上验证，更大规模（论文举例的 7B/14T）只是理论上适用，实际效果待验证。

评分¶

新颖性: ⭐⭐⭐⭐ 把架构因素以"条件校准"方式优雅地接入 Chinchilla，并打通到可执行的架构搜索，角度新且实用。
实验充分度: ⭐⭐⭐⭐⭐ 训了 200+ 个 80M-3B 模型、跨 vLLM/SGLang × A100/H200 验证，渐进式拟合 + 多组消融非常扎实。
写作质量: ⭐⭐⭐⭐ 逻辑清晰、公式与图表对应到位，个别符号（如表中 \(r\) 取值）需对照原文。
价值: ⭐⭐⭐⭐⭐ 给出"在固定预算下设计推理高效大模型"的可落地方法论，2.1% 精度 + 42% 吞吐的双赢极具部署价值。