Model Merging Scaling Laws in Large Language Models¶

会议: ICML 2026
arXiv: 2509.24244
代码: https://github.com/InfiXAI/Merging-Scaling-Law (有)
领域: LLM 预训练 / 模型合并 / Scaling Law
关键词: 模型合并、scaling law、power law、task arithmetic、TIES/DARE

一句话总结¶

作者用 10,866 个合并模型实测出一条形如 \(L=L_*+BN^{-\beta}+A_0 N^{-\gamma}/(k+b)\) 的双轴幂律：基座规模 \(N\) 决定 floor，专家数 \(k\) 决定 tail，且四种主流合并方法（Average、TA、TIES、DARE）都共用同一条曲线，从而把"合多少个专家、合到哪一步停"变成一个可预测、可预算的工程问题。

研究背景与动机¶

领域现状：模型合并（Model Merging）已经成为继多任务 SFT 之后的低成本"专家整合"范式。线性加权（Model Soups、Task Arithmetic）和带预处理的版本（TIES、DARE）在 LLM、LoRA 适配器等场景被广泛使用。

现有痛点：合并本质上还是"凭手感"——试不同子集、不同顺序、不同归一化系数，开销很大却没有像预训练那样的 scaling law 指导。给定一个目标 loss，没人能预先回答"我到底需要几个专家"或者"基座放大一倍 vs 多融一个专家哪个更划算"。

核心矛盾：合并的收益曲线明显不是线性，但又确实存在某种规律性（早期收益陡、后期饱和）。如果没有解析形式去描述这条曲线，工程实践就只能用穷举搜索，浪费 GPU。

本文目标：（1）找到一条同时刻画 \(N\)（基座参数量）和 \(k\)（合并专家数）影响的紧凑公式；（2）证明它对不同合并算法、不同骨干、in-domain 与 cross-domain 都成立；（3）给出"只测三个点就能外推整条曲线"的实操方法。

切入角度：把合并看作"对若干 task vector 做等权重平均"。在二阶 Taylor 展开下，等权平均的方差会以 \(1/k\) 速率收缩，而方差通过 Hessian 进入 loss 就是 \(A(N)/k\) 那一项。作者由此预期"floor + 1/k tail"的结构，并大规模实证验证。

核心 idea：用一条"floor + 1/(k+b) tail"的幂律统一描述所有合并方法的 CE 曲线，把基座规模和专家数这两个尺度统一进同一公式，使合并变成 budget-aware 的可预测过程。

方法详解¶

整体框架¶

作者在 Qwen2.5 系列（0.5B/1.5B/3B/7B/14B/32B/72B）上从同一个基座微调九个领域专家（algebra、analysis、geometry、discrete、number_theory、code、chemistry、physics、biology），覆盖 in-domain 与 cross-domain 两种评估。对每个 \((N,k)\) 组合，遍历或均匀采样所有 \(\binom{9}{k}\) 的专家子集，跑四种合并算法（Average、TA、TIES、DARE）合成模型并测 token-level CE，最终得到 10,866 个合并模型的网格数据。然后用加权非线性最小二乘拟合一条形如 \(\mathbb{E}[L\mid N,k]=L_\infty(N)+A(N)/(k+b)\) 的曲线，其中 \(L_\infty(N)=L_*+BN^{-\beta}\)、\(A(N)=A_0 N^{-\gamma}\)，再用 R² 与残差结构验证。

关键设计¶

统一 floor+tail 幂律:
- 功能：用一个公式同时刻画基座规模和专家数对合并 loss 的影响。
- 核心思路：\(\mathbb{E}[L\mid N,k]=L_*+BN^{-\beta}+\frac{A_0 N^{-\gamma}}{k+b}\)，其中 floor 项 \(L_*+BN^{-\beta}\) 随 \(N\) 单调下降，tail 项 \(A_0 N^{-\gamma}/(k+b)\) 随 \(k\) 以倒数速率衰减；拟合时用权重 \(\propto k\) 来稳定早期 \(k\) 噪声，所有方法在所有切片上 \(R^2>0.98\)。
- 设计动机：把"更大基座更好合"和"专家越多收益递减"两个观察合并到同一表达式，使预算决策（"再加一个专家 vs 把基座放大一档"）可以直接通过两项的相对量级来比较。
从二阶 Taylor 导出 1/k tail 的理论:
- 功能：解释为什么所有合并算法在等权归一化下都呈现 \(1/k\) 的尾部。
- 核心思路：把每个 task vector 写成 \(v_i\)，等权合并后扰动均值是 \(c\mu\)、协方差是 \(\Sigma/k\)；对 loss 做二阶 Taylor 展开得到 \(\mathbb{E}[L]=L(\theta_0)+cg^\top\mu+\frac{1}{2}c^2\mu^\top H\mu+\frac{c^2}{2k}\mathrm{Tr}(H\Sigma)+\mathcal{O}(k^{-3/2})\)，前面三项凝聚成 \(L_\infty(N)\)，最后一项就是 \(A(N)/k\)；Corollary 进一步说明 subset 间的 std 以 \(1/\sqrt{k}\) 收缩。TIES/DARE 这类预处理算法被吸收成对 \(\Psi(v)\) 的修改，不改变 leading-order 形式。
- 设计动机：从理论上把"为什么 1/k"讲清楚，而不是仅给出经验拟合；同时解释为什么 TIES、DARE 这些差异巨大的实现最终也都落在同一曲线上。
三点拟合 + 推荐 \(k^*\) 的预算算法:
- 功能：只用 \(k\in\{1,2,4\}\) 三个点就能外推整条 \(k\)-曲线，并给出"性价比最高的专家数" \(k^*\)。
- 核心思路：因为公式只有 \(L_\infty\)、\(A\)、\(b\) 三个自由度，理论上三点定型；论文经验显示三点拟合可以恢复完整 9 点曲线，并把 \(k^*\) 稳定地估计在 \(5\sim 6\)，对应 elbow 位置 \(\Delta_k\approx A/[(k+b)(k+1+b)]\sim k^{-2}\)。
- 设计动机：在真实场景下做完整 \(k\)-grid 的开销很大；三点法把"先测一小批再决定预算"做成可行流程，让合并从"试错"变成"测量+外推"。

损失函数 / 训练策略¶

论文不引入新的训练损失，所有数据点来自冻结的基座+独立微调的 9 个领域专家，用 token-level cross-entropy 在 30M held-out token 上评估；合并系数采用等权归一化 \(\alpha_{i,k}=c/k\)。拟合采用加权非线性最小二乘，权重 \(\propto k\) 以抑制小 \(k\) 时的高方差。

实验关键数据¶

主实验¶

设置	模型规模 \(N\)	\(k=9\) 时域均 CE	相比 0.5B 降幅
In-domain	0.5B	0.739	—
In-domain	7B	~0.52	~30%
In-domain	32B	0.430	41.9%
Cross-domain	0.5B→32B	同步下移	floor 与 tail 都缩小
拟合质量	全部点	\(R^2>0.98\)	floor/tail 均匀残差

消融实验¶

配置	关键观察	说明
Average / TA / TIES / DARE	同一公式 \(R^2>0.98\)	方法差异被吸收进 \(L_\infty\)、\(A\)、\(b\) 三个常数
候选池 \(M=9\to 8\to 7\)	floor 几乎不变，tail 减小幅度变小	多样性主要拉低 tail 而非 floor
三点 \(k\in\{1,2,4\}\) 拟合	推断 9 点曲线误差 < 全拟合的几倍	三点法足够支撑预算决策
不同 donor 顺序（DARE）	\(k=8\) 时 whisker 长度缩 ~83%	顺序敏感性以 \(1/(k+b)\) 收缩
跨骨干（LLaMA-3.2 3B / LLaMA-3 8B）	同样的 1/k tail	公式形态可迁移

关键发现¶

"更大基座更好合"被定量化：32B 相比 0.5B 在 \(k=9\) 时 CE 直降 41.9%，floor 和 tail 同时缩小，相当于既给了更低的渐近性能又减少了所需的专家数。
elbow 普遍出现在 \(k\approx 5\sim 6\)：达到 85% 收益只需 5 个专家、90% 只需 6 个；超过这个数，新增专家几乎只是"刷数据"。
方法差异在大尺度下被压平：\(N=32B\)、\(k\approx 8\) 时 Avg/TA/TIES/DARE 的 mean CE 差距 \(\lesssim 2\%\)，merge-to-merge 方差按 \(\sim 1/k\) 收缩到共同 floor。
order sensitivity 同样以 \(1/(k+b)\) 衰减，\(k\geq 6\) 之后精挑顺序基本没有意义。

亮点与洞察¶

用 10,866 个真实合并模型把"folk wisdom"拍成 \(R^2>0.98\) 的硬曲线，规模和系统性远超此前任何 merging 论文，是这条领域目前最权威的实证依据。
floor 与 tail 解耦的视角非常实用：用 \(A/L\) 的相对量级就能秒判"再融一个专家 vs 把基座升一档"哪个 ROI 更高，这是对工业界算力分配的直接价值。
三点拟合法把 scaling law 从"事后总结"升级为"提前预测"工具，不需要跑完所有 \(k\) 就能锁定 elbow，这种"测量-外推"思路可以迁移到其它合成性研究（如 RAG 检索源数量、ensemble 模型数）。

局限与展望¶

公式只覆盖等权归一化合并，对非等权或学得的权重（如基于路由/优化的 merge）只能解释 leading order，差异要靠 finite-\(k\) 偏差吸收。
专家容量被当作隐变量塞进了 \(A(N)\)，没有显式建模 LoRA rank、微调 token 数等"专家强度"维度，论文也承认这是自然扩展。
评测只用 cross-entropy，与下游 task accuracy 之间还有距离，对"代码/数学"这种长尾任务的 elbow 是否一致仍需验证。
9 个领域虽多样但都是 Mixture-of-Thoughts/OpenScience 这一系列数据，对真正异质（如多语言、多模态、安全对齐）的合并场景外推性待考。

评分¶

新颖性: ⭐⭐⭐⭐ 首次给出 \((N,k)\) 双轴 merging scaling law，并配上一阶可证明的理论；公式本身简洁，但思路在 scaling law 谱系里属于自然延伸。
实验充分度: ⭐⭐⭐⭐⭐ 10,866 个合并模型、9 个领域、7 个规模、4 种方法、跨骨干验证，规模在 merging 文献里几乎独一档。
写作质量: ⭐⭐⭐⭐ 公式与图配合清晰，把 floor/tail 物理意义讲透；只是 in-domain/cross-domain 章节略有重复叙述。
价值: ⭐⭐⭐⭐⭐ 直接给出"三点拟合→预算决策"的可落地流程，对工业界合并、LoRA 仓库管理、专家路由都有立刻可用的工程意义。