ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation¶
会议: CVPR 2026
arXiv: 2603.02945
代码: 无
领域: 优化
关键词: 模型合并, 数据无关, 协方差估计, 谱精炼, 闭式解
一句话总结¶
本文从理论上证明了微调参数差蕴含输入协方差信息,据此提出 ACE-Merging,通过自适应协方差估计、集体结构先验和谱精炼三步实现无数据闭式模型合并,在 GPT-2 上比之前方法平均提升 4%,在 RoBERTa-Base 上提升 5%。
研究背景与动机¶
领域现状:预训练+微调产生大量任务专用模型,模型合并(Model Merging)旨在将多个专家模型融合为一个统一模型,避免昂贵的多任务重训。现有方法分三类:数据依赖(需原始数据)、测试时自适应(推理开销大)、数据无关(最灵活)。
现有痛点:数据无关方法最具实用价值,但从 Task Arithmetic 到 TIES-Merging 等都只是参数空间的启发式操作(符号对齐、剪枝等),只处理干扰的"症状"而未触及根本原因——任务数据分布的统计结构差异。
核心矛盾:最优合并公式 \(\bar{W} = (\sum_t W_t \Sigma_t)(\sum_t \Sigma_t)^{-1}\) 需要每个任务的输入协方差 \(\Sigma_t\),但数据无关设定下恰恰无法获取这些统计量。
本文目标 如何在完全不访问数据的情况下,准确估计每个任务的输入协方差,从而实现有理论保障的最优合并。
切入角度:作者发现微调产生的权重位移 \(\Delta W_t\) 的行之间隐含了输入协方差信息——将 \(\Delta W_t\) 的行视为独立样本,其经验协方差正比于 \(\Sigma_t\)。
核心 idea:微调参数差本身就编码了输入协方差,无需任何数据即可估计并构造理论最优的闭式合并解。
方法详解¶
整体框架¶
ACE-Merging 的出发点是一个早已知道的"理想"合并公式 \(\bar{W} = (\sum_t W_t \Sigma_t)(\sum_t \Sigma_t)^{-1}\):它用每个任务的输入协方差 \(\Sigma_t\) 作权重做加权平均,理论上最优,唯一的障碍是数据无关设定下拿不到 \(\Sigma_t\)。本文的整条 pipeline 就是为了"凭空"补出这个协方差,再把它喂进闭式解。给定预训练权重 \(W_0\) 和一组微调专家 \(\{W_t\}\),方法逐层独立处理:先从权重位移 \(\Delta W_t = W_t - W_0\) 反推出每个任务的协方差估计,再根据任务间的尺度差异自适应地归一化,接着加一个跨任务共享的结构先验得到初步闭式解,最后用谱精炼修掉解里的病态分量,输出合并权重 \(\bar{W}\)。全程没有任何梯度迭代。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["预训练权重 W₀ + 一组微调专家 {Wₜ}<br/>逐层独立处理,全程无梯度迭代"] --> B["权重位移 ΔWₜ = Wₜ − W₀"]
B --> C["1. 从参数差估计输入协方差<br/>ΔWₜ 各行视作样本求经验协方差 → Σ̂ₜ"]
C --> D{"任务异质性 γ > 阈值 τ ?"}
D -->|"是(如 RoBERTa)"| E["2. 自适应协方差归一化<br/>trace 归一化 + 自适应 Tikhonov 正则"]
D -->|"否(如 ViT),跳过"| F["3. 集体结构先验 CSP<br/>跨任务共识替代各向同性正则 → 初步闭式解 W̄pre"]
E --> F
F --> G["4. 谱精炼<br/>对 W̄pre 做 SVD,保主方向、top-k 奇异值平能量"]
G --> H["合并权重 W̄"]
关键设计¶
1. 从参数差估计输入协方差:把"没有数据"的死结转成可计算的量
数据无关合并的根本障碍是拿不到 \(\Sigma_t\),而本文的理论核心(Theorem 1)正是证明 \(\Sigma_t \propto \text{Cov}_{\mathcal{D}_t}[\Delta W_t]\)——微调留下的权重位移里本就编码了输入的二阶统计。直觉上,因为微调更新量小,可在 \(W_0\) 处把梯度线性化,得到 \(\Delta W_t \approx -2\eta N_t \,\mathbb{E}[(W_0 x - y)x^\top]\),位移与输入外积 \(x x^\top\) 直接挂钩。落到操作上,把 \(\Delta W_t\) 的每一行当作一个独立样本,算它的经验协方差即可:
这一步是整个方法的地基,它把"数据无关合并"从无从下手的启发式问题,变成了有显式估计目标、可走闭式解的问题。它也顺带统一解释了前人:WUDI-Merging 其实隐式用了一个类似代理 \(\hat{\Sigma}_t \propto \|\Delta W_t\|_F^{-2} (\Delta W_t)^\top \Delta W_t\),只是它靠迭代梯度下降求解、不稳定,而本文把这个量摆到台面上、直接闭式用掉。
2. 自适应协方差归一化:让能量大的任务别一家独大
直接把各任务的 \(\hat{\Sigma}_t\) 加进合并公式有个隐患——不同任务的 \(\Delta W_t\) 能量尺度差异可能很大,能量高的任务会主导最终结果。本文先用一个异质性度量把这种差异量化出来:\(\gamma = \frac{\text{Var}_t[\log\|\Delta W_t\|_F^2]}{(\mathbb{E}_t[\log\|\Delta W_t\|_F^2])^2}\),即各任务位移能量(取对数后)的相对方差,\(\gamma\) 越大说明任务间越不齐次。只有当 \(\gamma\) 超过阈值 \(\tau\) 时才触发归一化:先做 trace 归一化把每个协方差的总能量拉平 \(\hat{\Sigma}_{t,\text{scaled}} = \hat{\Sigma}_t / \text{Tr}(\hat{\Sigma}_t)\),再加一个随尺度自适应的 Tikhonov 正则 \(\hat{\Sigma}_{t,\text{reg}} = \hat{\Sigma}_{t,\text{scaled}} + \frac{\epsilon}{\text{Tr}(\hat{\Sigma}_t)} I\) 稳住求逆。\(\gamma\) 在这里就是一个门控开关:实测 RoBERTa 的异质性(\(\gamma > 0.3\))远高于 ViT(\(\gamma < 0.25\)),对本就齐次的 ViT 任务做归一化纯属画蛇添足,门控让方法自动跳过这一步。
3. 集体结构先验(CSP):用跨任务共识替代各向同性的正则
上一步的 \(\epsilon I\) 正则对所有特征维度一视同仁,是各向同性的,等于无视了输入空间真实的几何结构。CSP 的做法是把所有任务缩放后协方差的列均值广播到每一行,构造一个低秩的共识先验:\(\mathbf{C}_{\text{agg}} = \mathbf{1} \cdot (\frac{1}{d_{\text{in}}} \mathbf{1}^\top \sum_t \hat{\Sigma}_{t,\text{scaled}})\),把它替到正则位置,得到初步闭式解:
和均匀的 \(\epsilon I\) 比,\(\mathbf{C}_{\text{agg}}\) 携带了"哪些维度是各任务共同看重的"这一信息,于是正则会选择性地加固这些共享的重要方向,而不是无差别地压所有维度。
4. 谱精炼:方向是对的、能量分错了,就只重排能量
初步闭式解 \(\bar{W}_{\text{pre}}\) 有个严重的谱病态:实测它的 top 5% 奇异值就占了 99% 以上能量,条件数高达 \(8.7\times 10^5\)。但关键观察是——它的主方向其实是对的(和最终解的余弦相似度≈1),坏的只是能量在奇异值上的分配。于是不必推翻重算,只需保留方向、把能量摊平。具体是先算结构残差 \(\Delta_{\text{res}} = \sum_t W_t (\hat{\Sigma}_{t,\text{scaled}} - \bar{\Sigma})\),与 \(\bar{W}_{\text{pre}}\) 融合后做 SVD,对 top-\(k\) 个奇异方向统一换成它们的均值奇异值 \(\sigma_{\text{iso}}\) 重新加权:
这种"保方向、平能量"的修法既消除了病态,又没破坏前几步辛苦估出来的几何结构,是消融里最终把性能顶上去的那一刀。
损失函数 / 训练策略¶
ACE-Merging 是纯闭式方法,不涉及任何训练/优化迭代。超参固定为 \(\tau=0.3\), \(k_{\text{frac}}=0.3\),\(\epsilon\) 按模型族调整(GPT-2: \(4\times 10^{-2}\), RoBERTa-Base: \(2\times 10^{-4}\), 其余: \(1\times 10^{-5}\))。
实验关键数据¶
主实验¶
视觉任务 (ViT-B/16, 平均绝对准确率 %)
| 任务数 | Weight Avg | Task Arithmetic | CART | TSV-M | ACE-Merging | 提升 |
|---|---|---|---|---|---|---|
| 8 tasks | 72.2 | 75.4 | 88.3 | 89.0 | 90.6 | +1.6 |
| 14 tasks | 69.5 | 70.5 | 84.1 | 84.6 | 86.1 | +1.5 |
| 20 tasks | 65.3 | 65.8 | 80.5 | 80.6 | 82.1 | +1.5 |
语言任务 (GPT-2, GLUE Avg %)
| 方法 | CoLA | MNLI | MRPC | QNLI | QQP | RTE | SST-2 | Avg |
|---|---|---|---|---|---|---|---|---|
| Task Arithmetic | 68.7 | 68.6 | 69.6 | 70.5 | 81.8 | 47.3 | 83.6 | 70.0 |
| TSV-M | 65.6 | 75.4 | 58.6 | 64.4 | 86.2 | 55.6 | 85.7 | 70.2 |
| ACE-Merging | 70.3 | 69.9 | 71.8 | 76.7 | 79.0 | 62.5 | 88.5 | 74.1 |
消融实验¶
| 配置 | RoBERTa-L | GPT-2 | ViT-B/16 (8tasks) | 说明 |
|---|---|---|---|---|
| E1: Basic Closed-form | 80.05 | 68.72 | 89.91 | 仅闭式解 |
| E2: + Adaptive ε | 88.04 | 71.50 | 89.91 | 自适应正则贡献最大 |
| E3: + Aggregate Prior | 86.79 | 71.51 | 90.60 | 结构先验辅助 |
| E4: + Spectral Refinement | 91.68 | 74.09 | 90.60 | 谱精炼最终提升 |
关键发现¶
- 自适应正则化贡献最大——在 RoBERTa-L 上从 E1 到 E2 提升了近 8 个百分点,说明任务异质性平衡是核心瓶颈
- ViT 因任务异质性低(\(\gamma < 0.3\))自动跳过自适应和谱精炼阶段(E1≈E2, E3≈E4),验证了 \(\gamma\) 门控机制的合理性
- 超参敏感性分析显示 \(\gamma \in [0.1, 0.3]\), \(k_{\text{frac}} \in [0.1, 0.5]\) 范围内性能稳定,\(\epsilon\) 更敏感
- RoBERTa-Base 上 ACE-Merging (90.4%) 大幅超越 WUDI-Merging (85.3%),在 RoBERTa-Large 上也保持 ~3% 优势
亮点与洞察¶
- 理论洞察极为优雅:将数据无关合并的根本障碍(缺少协方差)转化为可从参数差直接估计的量,建立了"微调权重差 ↔ 输入协方差"的形式化联系。这一视角不仅解释了 ACE-Merging 为何有效,还统一解释了先前方法——Weight Averaging 假设 \(\Sigma_t = kI\),WUDI-Merging 隐式用 \(\|\Delta W_t\|_F^{-2} (\Delta W_t)^\top \Delta W_t\) 作代理
- 闭式解 vs 迭代解:WUDI-Merging 需要梯度下降迭代,而 ACE-Merging 是真正的 closed-form,计算效率高且稳定性更好
- 谱精炼的观察很巧妙:发现初始闭式解方向正确但能量分布极端失衡(top 5% 奇异值占 99% 能量),因此只需保留方向重分配能量。这个"方向正确、幅度错误"的诊断思路可迁移到其他矩阵优化问题
局限与展望¶
- \(\epsilon\) 需要按模型族手动设定(GPT-2、RoBERTa、ViT 各不同),作者也承认自动估计 \(\epsilon\) 是未来方向
- 线性近似 \(f(W,x) \approx Wx\) 在深层非线性网络中可能不够精确,特别是对注意力层
- "将 \(\Delta W_t\) 的行视为独立样本"这一假设在实际中未必成立——权重矩阵的行间存在结构性相关
- 仅在 GLUE 和视觉分类任务上验证,未测试生成任务(如 LLM 对话、代码生成)
- 合并时逐层独立操作,忽略了跨层间的依赖关系
相关工作与启发¶
- vs WUDI-Merging: 本文在理论框架下将 WUDI 重新解释为 ACE 的特例(norm-weighted 协方差代理),且 ACE 用闭式解替代 WUDI 的迭代优化,更稳定高效
- vs TSV-M: TSV-M 用 SVD 分解共享/任务特定子空间,属于启发式;ACE 直接建模协方差,理论基础更扎实
- vs RegMean: RegMean 是数据依赖方法直接用真实协方差,ACE 证明了无需数据也能估计协方差并达到可比性能
- 协方差估计+谱修正的思路可推广到联邦学习中的模型聚合问题
评分¶
- 新颖性: ⭐⭐⭐⭐ 理论贡献优雅但核心 insight(参数差 ∝ 协方差)并非完全意外
- 实验充分度: ⭐⭐⭐⭐⭐ 视觉+语言、多架构多尺度、完整消融和敏感性分析
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑链清晰,理论→统一框架→方法→实验层层推进
- 价值: ⭐⭐⭐⭐ 数据无关合并的实用工具,但 \(\epsilon\) 需手调降低了开箱即用性