ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation¶

会议: CVPR 2026
arXiv: 2603.02945
代码: 无
领域: 优化
关键词: 模型合并, 数据无关, 协方差估计, 谱精炼, 闭式解

一句话总结¶

本文从理论上证明了微调参数差蕴含输入协方差信息，据此提出 ACE-Merging，通过自适应协方差估计、集体结构先验和谱精炼三步实现无数据闭式模型合并，在 GPT-2 上比之前方法平均提升 4%，在 RoBERTa-Base 上提升 5%。

研究背景与动机¶

领域现状：预训练+微调产生大量任务专用模型，模型合并(Model Merging)旨在将多个专家模型融合为一个统一模型，避免昂贵的多任务重训。现有方法分三类：数据依赖(需原始数据)、测试时自适应(推理开销大)、数据无关(最灵活)。

现有痛点：数据无关方法最具实用价值，但从 Task Arithmetic 到 TIES-Merging 等都只是参数空间的启发式操作（符号对齐、剪枝等），只处理干扰的"症状"而未触及根本原因——任务数据分布的统计结构差异。

核心矛盾：最优合并公式 \(\bar{W} = (\sum_t W_t \Sigma_t)(\sum_t \Sigma_t)^{-1}\) 需要每个任务的输入协方差 \(\Sigma_t\)，但数据无关设定下恰恰无法获取这些统计量。

本文目标 如何在完全不访问数据的情况下，准确估计每个任务的输入协方差，从而实现有理论保障的最优合并。

切入角度：作者发现微调产生的权重位移 \(\Delta W_t\) 的行之间隐含了输入协方差信息——将 \(\Delta W_t\) 的行视为独立样本，其经验协方差正比于 \(\Sigma_t\)。

核心 idea：微调参数差本身就编码了输入协方差，无需任何数据即可估计并构造理论最优的闭式合并解。

方法详解¶

整体框架¶

ACE-Merging 的出发点是一个早已知道的"理想"合并公式 \(\bar{W} = (\sum_t W_t \Sigma_t)(\sum_t \Sigma_t)^{-1}\)：它用每个任务的输入协方差 \(\Sigma_t\) 作权重做加权平均，理论上最优，唯一的障碍是数据无关设定下拿不到 \(\Sigma_t\)。本文的整条 pipeline 就是为了"凭空"补出这个协方差，再把它喂进闭式解。给定预训练权重 \(W_0\) 和一组微调专家 \(\{W_t\}\)，方法逐层独立处理：先从权重位移 \(\Delta W_t = W_t - W_0\) 反推出每个任务的协方差估计，再根据任务间的尺度差异自适应地归一化，接着加一个跨任务共享的结构先验得到初步闭式解，最后用谱精炼修掉解里的病态分量，输出合并权重 \(\bar{W}\)。全程没有任何梯度迭代。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["预训练权重 W₀ + 一组微调专家 {Wₜ}<br/>逐层独立处理，全程无梯度迭代"] --> B["权重位移 ΔWₜ = Wₜ − W₀"]
    B --> C["1. 从参数差估计输入协方差<br/>ΔWₜ 各行视作样本求经验协方差 → Σ̂ₜ"]
    C --> D{"任务异质性 γ > 阈值 τ ?"}
    D -->|"是（如 RoBERTa）"| E["2. 自适应协方差归一化<br/>trace 归一化 + 自适应 Tikhonov 正则"]
    D -->|"否（如 ViT），跳过"| F["3. 集体结构先验 CSP<br/>跨任务共识替代各向同性正则 → 初步闭式解 W̄pre"]
    E --> F
    F --> G["4. 谱精炼<br/>对 W̄pre 做 SVD，保主方向、top-k 奇异值平能量"]
    G --> H["合并权重 W̄"]

关键设计¶

1. 从参数差估计输入协方差：把"没有数据"的死结转成可计算的量

数据无关合并的根本障碍是拿不到 \(\Sigma_t\)，而本文的理论核心（Theorem 1）正是证明 \(\Sigma_t \propto \text{Cov}_{\mathcal{D}_t}[\Delta W_t]\)——微调留下的权重位移里本就编码了输入的二阶统计。直觉上，因为微调更新量小，可在 \(W_0\) 处把梯度线性化，得到 \(\Delta W_t \approx -2\eta N_t \,\mathbb{E}[(W_0 x - y)x^\top]\)，位移与输入外积 \(x x^\top\) 直接挂钩。落到操作上，把 \(\Delta W_t\) 的每一行当作一个独立样本，算它的经验协方差即可：

\[\hat{\Sigma}_t \propto (\Delta W_t - \mathbf{1}\mu_t^\top)^\top (\Delta W_t - \mathbf{1}\mu_t^\top)\]

这一步是整个方法的地基，它把"数据无关合并"从无从下手的启发式问题，变成了有显式估计目标、可走闭式解的问题。它也顺带统一解释了前人：WUDI-Merging 其实隐式用了一个类似代理 \(\hat{\Sigma}_t \propto \|\Delta W_t\|_F^{-2} (\Delta W_t)^\top \Delta W_t\)，只是它靠迭代梯度下降求解、不稳定，而本文把这个量摆到台面上、直接闭式用掉。

2. 自适应协方差归一化：让能量大的任务别一家独大

直接把各任务的 \(\hat{\Sigma}_t\) 加进合并公式有个隐患——不同任务的 \(\Delta W_t\) 能量尺度差异可能很大，能量高的任务会主导最终结果。本文先用一个异质性度量把这种差异量化出来：\(\gamma = \frac{\text{Var}_t[\log\|\Delta W_t\|_F^2]}{(\mathbb{E}_t[\log\|\Delta W_t\|_F^2])^2}\)，即各任务位移能量（取对数后）的相对方差，\(\gamma\) 越大说明任务间越不齐次。只有当 \(\gamma\) 超过阈值 \(\tau\) 时才触发归一化：先做 trace 归一化把每个协方差的总能量拉平 \(\hat{\Sigma}_{t,\text{scaled}} = \hat{\Sigma}_t / \text{Tr}(\hat{\Sigma}_t)\)，再加一个随尺度自适应的 Tikhonov 正则 \(\hat{\Sigma}_{t,\text{reg}} = \hat{\Sigma}_{t,\text{scaled}} + \frac{\epsilon}{\text{Tr}(\hat{\Sigma}_t)} I\) 稳住求逆。\(\gamma\) 在这里就是一个门控开关：实测 RoBERTa 的异质性（\(\gamma > 0.3\)）远高于 ViT（\(\gamma < 0.25\)），对本就齐次的 ViT 任务做归一化纯属画蛇添足，门控让方法自动跳过这一步。

3. 集体结构先验（CSP）：用跨任务共识替代各向同性的正则

上一步的 \(\epsilon I\) 正则对所有特征维度一视同仁，是各向同性的，等于无视了输入空间真实的几何结构。CSP 的做法是把所有任务缩放后协方差的列均值广播到每一行，构造一个低秩的共识先验：\(\mathbf{C}_{\text{agg}} = \mathbf{1} \cdot (\frac{1}{d_{\text{in}}} \mathbf{1}^\top \sum_t \hat{\Sigma}_{t,\text{scaled}})\)，把它替到正则位置，得到初步闭式解：

\[\bar{W}_{\text{pre}} = \Big(\sum_t W_t \hat{\Sigma}_{t,\text{reg}}\Big)\Big(\sum_t \hat{\Sigma}_{t,\text{reg}} + \mathbf{C}_{\text{agg}}\Big)^{-1}\]

和均匀的 \(\epsilon I\) 比，\(\mathbf{C}_{\text{agg}}\) 携带了"哪些维度是各任务共同看重的"这一信息，于是正则会选择性地加固这些共享的重要方向，而不是无差别地压所有维度。

4. 谱精炼：方向是对的、能量分错了，就只重排能量

初步闭式解 \(\bar{W}_{\text{pre}}\) 有个严重的谱病态：实测它的 top 5% 奇异值就占了 99% 以上能量，条件数高达 \(8.7\times 10^5\)。但关键观察是——它的主方向其实是对的（和最终解的余弦相似度≈1），坏的只是能量在奇异值上的分配。于是不必推翻重算，只需保留方向、把能量摊平。具体是先算结构残差 \(\Delta_{\text{res}} = \sum_t W_t (\hat{\Sigma}_{t,\text{scaled}} - \bar{\Sigma})\)，与 \(\bar{W}_{\text{pre}}\) 融合后做 SVD，对 top-\(k\) 个奇异方向统一换成它们的均值奇异值 \(\sigma_{\text{iso}}\) 重新加权：

\[\Delta W_{\text{refine}} = \sigma_{\text{iso}}\, \mathbf{U}_{:,1:k} \mathbf{V}_{:,1:k}^\top, \qquad \bar{W} = \bar{W}_{\text{pre}} + \Delta W_{\text{refine}}\]

这种"保方向、平能量"的修法既消除了病态，又没破坏前几步辛苦估出来的几何结构，是消融里最终把性能顶上去的那一刀。

损失函数 / 训练策略¶

ACE-Merging 是纯闭式方法，不涉及任何训练/优化迭代。超参固定为 \(\tau=0.3\), \(k_{\text{frac}}=0.3\)，\(\epsilon\) 按模型族调整（GPT-2: \(4\times 10^{-2}\), RoBERTa-Base: \(2\times 10^{-4}\), 其余: \(1\times 10^{-5}\)）。

实验关键数据¶

主实验¶

视觉任务 (ViT-B/16, 平均绝对准确率 %)

任务数	Weight Avg	Task Arithmetic	CART	TSV-M	ACE-Merging	提升
8 tasks	72.2	75.4	88.3	89.0	90.6	+1.6
14 tasks	69.5	70.5	84.1	84.6	86.1	+1.5
20 tasks	65.3	65.8	80.5	80.6	82.1	+1.5

语言任务 (GPT-2, GLUE Avg %)

方法	CoLA	MNLI	MRPC	QNLI	QQP	RTE	SST-2	Avg
Task Arithmetic	68.7	68.6	69.6	70.5	81.8	47.3	83.6	70.0
TSV-M	65.6	75.4	58.6	64.4	86.2	55.6	85.7	70.2
ACE-Merging	70.3	69.9	71.8	76.7	79.0	62.5	88.5	74.1

消融实验¶

配置	RoBERTa-L	GPT-2	ViT-B/16 (8tasks)	说明
E1: Basic Closed-form	80.05	68.72	89.91	仅闭式解
E2: + Adaptive ε	88.04	71.50	89.91	自适应正则贡献最大
E3: + Aggregate Prior	86.79	71.51	90.60	结构先验辅助
E4: + Spectral Refinement	91.68	74.09	90.60	谱精炼最终提升

关键发现¶

自适应正则化贡献最大——在 RoBERTa-L 上从 E1 到 E2 提升了近 8 个百分点，说明任务异质性平衡是核心瓶颈
ViT 因任务异质性低(\(\gamma < 0.3\))自动跳过自适应和谱精炼阶段（E1≈E2, E3≈E4），验证了 \(\gamma\) 门控机制的合理性
超参敏感性分析显示 \(\gamma \in [0.1, 0.3]\), \(k_{\text{frac}} \in [0.1, 0.5]\) 范围内性能稳定，\(\epsilon\) 更敏感
RoBERTa-Base 上 ACE-Merging (90.4%) 大幅超越 WUDI-Merging (85.3%)，在 RoBERTa-Large 上也保持 ~3% 优势

亮点与洞察¶

理论洞察极为优雅：将数据无关合并的根本障碍（缺少协方差）转化为可从参数差直接估计的量，建立了"微调权重差 ↔ 输入协方差"的形式化联系。这一视角不仅解释了 ACE-Merging 为何有效，还统一解释了先前方法——Weight Averaging 假设 \(\Sigma_t = kI\)，WUDI-Merging 隐式用 \(\|\Delta W_t\|_F^{-2} (\Delta W_t)^\top \Delta W_t\) 作代理
闭式解 vs 迭代解：WUDI-Merging 需要梯度下降迭代，而 ACE-Merging 是真正的 closed-form，计算效率高且稳定性更好
谱精炼的观察很巧妙：发现初始闭式解方向正确但能量分布极端失衡（top 5% 奇异值占 99% 能量），因此只需保留方向重分配能量。这个"方向正确、幅度错误"的诊断思路可迁移到其他矩阵优化问题

局限与展望¶

\(\epsilon\) 需要按模型族手动设定（GPT-2、RoBERTa、ViT 各不同），作者也承认自动估计 \(\epsilon\) 是未来方向
线性近似 \(f(W,x) \approx Wx\) 在深层非线性网络中可能不够精确，特别是对注意力层
"将 \(\Delta W_t\) 的行视为独立样本"这一假设在实际中未必成立——权重矩阵的行间存在结构性相关
仅在 GLUE 和视觉分类任务上验证，未测试生成任务（如 LLM 对话、代码生成）
合并时逐层独立操作，忽略了跨层间的依赖关系

评分¶

新颖性: ⭐⭐⭐⭐ 理论贡献优雅但核心 insight（参数差 ∝ 协方差）并非完全意外
实验充分度: ⭐⭐⭐⭐⭐ 视觉+语言、多架构多尺度、完整消融和敏感性分析
写作质量: ⭐⭐⭐⭐⭐ 逻辑链清晰，理论→统一框架→方法→实验层层推进
价值: ⭐⭐⭐⭐ 数据无关合并的实用工具，但 \(\epsilon\) 需手调降低了开箱即用性