Model Merging on Loss Landscape: A Geometry Perspective¶

会议: CVPR 2026
arXiv: 2605.26693
代码: 无（截至笔记时未公开）
领域: 模型压缩 / 模型合并
关键词: 模型合并、损失曲率、黎曼流形、Fréchet 均值、Fisher 信息

一句话总结¶

本文提出 EpiMer，把模型合并重新表述为「在以期望 Hessian 为度量的黎曼流形上求 Fréchet 均值」，并把计算限制在任务向量张成的低秩子空间里使曲率可精确求解；理论上把合并误差界拆成子空间方差与残差能量、并给出「何时曲率感知合并可证明优于平直几何合并」的闭式判据 \(\eta\)，实验上在三种 CLIP-ViT backbone 的八任务合并上一致超过最强平直基线 TSV-M。

研究背景与动机¶

领域现状：模型合并（model merging）想在不重训、不访问原始数据的前提下，把多个从同一预训练权重微调出来的专家模型「捏」成一个统一模型。主流做法都在平直的欧氏参数空间里操作——直接对任务向量做加权平均，靠性能排名（Model Soups）、任务算术（Task Arithmetic）、启发式冲突消解（TIES）等辅助信息挑权重。

现有痛点：这些平直几何方法有一个共同的根本缺陷——完全忽略损失曲面的几何。参数空间里不同方向对损失的敏感度天差地别：某个参数动一点点损失就爆炸，另一个参数动很多却几乎没影响。平直平均把所有方向一视同仁，结果合并点可能正好落在某个任务的高损失壁垒上，引发破坏性干扰甚至灾难性遗忘。

核心矛盾：想引入曲率（二阶信息）的方法又被另一个问题卡死——在完整参数空间里算或近似 Hessian 要么不可行，要么噪声大到抵消掉理论优势（如全空间对角 Fisher）。而最近的谱方法（TSV-M、Isotropic Merging）干脆绕开曲率、只在任务向量的 SVD 子空间里操作，效果很好却没有几何理论解释。于是一个根本问题悬而未决：曲率到底什么时候真的重要，什么时候平直几何就够用？

本文目标：（R1）给出一个比参数平均更一般、把损失曲面纳入进来的合并问题设定；（R2）刻画曲率感知合并何时可证明有用，并设计一个能在「曲率真正重要的子空间」里利用曲率的实用算法；（R3）能不能在合并之前就预测「这批模型好不好合」。

切入角度：作者注意到参数对损失的敏感度，本质上对应参数的认知不确定性（epistemic uncertainty），而它正是由损失的局部曲率（Hessian）刻画的。如果把参数空间建模成一个以期望 Hessian 为度量张量的统计流形，那么「合并」就自然变成在这个弯曲流形上找几何中心。

核心 idea：用「黎曼流形上的 Fréchet 均值」代替「欧氏空间里的加权平均」来做模型合并，并把不可行的全空间计算限制到任务向量张成的低秩子空间——在那里投影后的 Hessian 既稠密又小到能精确求逆，让曲率感知合并第一次同时做到「有原理」和「可计算」。

方法详解¶

整体框架¶

EpiMer 的输入是一个预训练权重 \(\bm{\theta}_0\) 和 \(T\) 个从它微调出来的任务权重 \(\{\bm{\theta}_t\}\)，输出是单个合并权重 \(\bm{\theta}_m=\bm{\theta}_0+\bm{S}\tilde{\bm{\delta}}_m^*\)。整条流水线分四步：先把合并重新定义为损失流形上的 Fréchet 均值（用期望 Hessian 当度量），写出闭式解 \(\bm{\delta}_m^*=(\sum_t\lambda_t\bm{H}_t)^{-1}\sum_t\lambda_t\bm{H}_t\bm{\delta}_t\)；但这个全空间解算不动，于是构造一组逐任务标记的低秩基 \(\bm{S}\)（沿用 TSV-M 的 per-task SVD 因子）把问题压进 \(p\ll m\) 维子空间，在那里投影 Hessian \(\tilde{\bm{H}}_t=\bm{S}^\top\bm{H}_t\bm{S}\) 变稠密、只需 \(kT\) 次 Hessian-向量积就能精确求逆；接着用一个修正的聚合公式解出子空间里的 Fréchet 均值（避免标记基带来的幅度坍缩）；最后把解 lift 回原参数空间。整套方法还配一个曲率异质性诊断量 \(\eta\)，能在合并前预测曲率感知到底值不值得用。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>预训练 θ₀ + T 个任务权重 θₜ"] --> B["黎曼流形 Fréchet 均值<br/>期望 Hessian 当度量"]
    B --> C["低秩子空间求解<br/>per-task 标记基 S，投影 Hessian 变稠密"]
    C --> D["标记基聚合修正<br/>α·H̄⁻¹ 求和，避免幅度坍缩"]
    D --> E["lift 回参数空间<br/>θₘ = θ₀ + S·δ̃ₘ"]
    C -.曲率异质性 η.-> F["合并前诊断<br/>η≫0 才值得用曲率"]

关键设计¶

1. 黎曼流形上的 Fréchet 均值：把曲率写进合并目标本身

平直方法的痛点是「所有参数方向一视同仁」。本文把参数空间 \(\Theta\) 建模成一个可微流形 \(\mathcal{M}\subset\mathbb{R}^m\)，度量张量取期望 Hessian \(\bm{G}(\bm{\theta})\triangleq\mathbb{E}_{\bm{x}}[\nabla^2_{\bm{\theta}}\mathcal{L}(\bm{x},\bm{\theta})]\)。在局部极小点 Hessian 半正定，是合法的黎曼度量（因过参数化可能退化，故为退化黎曼流形）。这样两点间的测地距离 \(d_g^2\) 度量的就是「沿路径搬运参数所累积的总损失变化」——测地线会优先穿过认知不确定性大（损失变化小）的区域。于是合并被重写成在这个弯曲流形上找所有任务模型的几何质心：

\[\bm{\theta}_m\triangleq\underset{\bm{\theta}\in\mathcal{M},\gamma_t}{\arg\min}\sum_{t=1}^T\lambda_t\int_{\gamma_t(0)=\bm{\theta}_t}^{\gamma_t(1)=\bm{\theta}}\dot\gamma_t^\top\bm{G}_t(\gamma_t)\dot\gamma_t\,d\tau\]

作者证明（Proposition 1）：在二阶近似下，最小化多任务损失等价于求这些模型的 Fréchet 均值。把测地线近似成线性路径、度量钉在端点 \(\bm{H}_t\) 后，目标退化成关于 \(\bm{\delta}_m=\bm{\theta}_m-\bm{\theta}_0\) 的二次型，有闭式解 \(\bm{\delta}_m^*=(\sum_t\lambda_t\bm{H}_t)^{-1}\sum_t\lambda_t\bm{H}_t\bm{\delta}_t\)。和平直平均的区别在于：曲率 \(\bm{H}_t\) 充当权重，让损失敏感方向被优先对齐，而不是无差别地线性叠加

2. 低秩子空间求解：让全空间不可行的 Hessian 在子空间里变稠密可逆

闭式解虽然漂亮却没法直接用：全空间 \(\sum_t\lambda_t\bm{H}_t\) 是 \(m\times m\)（\(m\) 是百万级参数量），求逆代价是 \(\mathcal{O}(m^2)\) 起步；更糟的是，若用单次前反传就能算的经验 Fisher 对角 \(\bm{v}_t=\mathbb{E}_{\bm{x}}[(\nabla_{\bm{\theta}}\mathcal{L}_t)^2]\) 去近似 \(\bm{H}_t\approx\mathrm{diag}(\bm{v}_t)\)，所有任务共享坐标轴当特征基，矩阵加权解会退化成 Task Arithmetic 的简单重加权——曲率信号被抹平。

本文的解法是把合并限制到一个列正交的低秩子空间 \(\bm{S}\in\mathbb{R}^{m\times p}\)（\(\bm{S}^\top\bm{S}=\bm{I}_p\)，\(p\ll m\)）。关键观察：即便 \(\bm{H}_t\) 是对角的，投影后 \(\tilde{\bm{H}}_t=\bm{S}^\top\bm{H}_t\bm{S}\) 也会变成稠密的 \(kT\times kT\) 矩阵，把全空间对角代理丢掉的跨参数曲率信号重新捞回来。子空间基的构造沿用 TSV-M 的 per-task 标记基：逐层对每个任务向量做 SVD 取 top-\(k\) 三元组，跨任务拼接左右因子后做正交 Procrustes 白化，得到 \(kT\) 个秩-1 外积原子 \(\{\bm{U}_{\perp,i}\bm{V}_{\perp,i}^\top\}\)，每个原子被打上「来自哪个任务」的标记。用 per-task 因子（而非联合正交化）是因为后者有硬秩上限 \(T\)，会让 EpiMer 坍回 Task Arithmetic。子空间里投影 Hessian 只需 \(kT\) 次 HVP、小到能精确求逆

3. 标记基聚合修正：用 α 缩放消掉「除以 T」带来的幅度坍缩

标记基带来一个新麻烦：每个原子只属于唯一一个任务，而标准 Fréchet 平均会把每个块除以 \(T\)，导致严重「欠合并」（under-merge）——合并出来的 delta 幅度被压得太小。作者给了个简单修正，把各任务贡献当作「求和」而非「平均」，同时保留曲率重加权：

\[\tilde{\bm{\delta}}_m^{(\ell)}=\alpha\,\bar{\bm{H}}^{-1}\sum_{t=1}^T\tilde{\bm{H}}_t^{(\ell)}\tilde{\bm{\delta}}_t^{(\ell)},\qquad\bar{\bm{H}}=\tfrac{1}{T}\sum_{t=1}^T\tilde{\bm{H}}_t^{(\ell)}\]

这等于把标准 Fréchet 均值乘上 \(\alpha T\) 还原掉平均。\(\alpha\) 是和 TSV-M 共享的全局缩放。为什么这样有效：在曲率同质极限下它坍缩成 \(\alpha\sum_t\tilde{\bm{\delta}}_t\)，恰好复现 TSV-M；一旦曲率异质，矩阵求解就按各任务曲率重塑贡献。α-sweep 实验确认这个聚合在每个 rank、每个 backbone 上都压过标准 Fréchet 均值

4. 曲率异质性诊断 η：合并前就能预测曲率到底值不值得用

这是本文回答「曲率何时重要」的核心理论产物（Theorem 3）。记平直解 \(\tilde{\bm{\delta}}_I=\sum_t\lambda_t\tilde{\bm{\delta}}_t\)、曲率感知解 \(\tilde{\bm{\delta}}_H=\bar{\bm{H}}^{-1}\sum_t\lambda_t\tilde{\bm{H}}_t\tilde{\bm{\delta}}_t\)，两者在合并目标上的差恰好是

\[\mathcal{F}(\tilde{\bm{\delta}}_I)-\mathcal{F}(\tilde{\bm{\delta}}_H)=\bm{c}^\top\bar{\bm{H}}^{-1}\bm{c}=\eta\ge0,\qquad\bm{c}=\sum_t\lambda_t(\tilde{\bm{H}}_t-\bar{\bm{H}})(\tilde{\bm{\delta}}_t-\bar{\bm{\delta}})\]

\(\bm{c}\) 是「曲率偏差」与「任务向量偏差」的相关量。\(\eta\) 可在 \(\mathcal{O}(p^3)\) 内从投影 Hessian 和任务向量算出，且恒非负——意味着曲率感知永不变差。当且仅当满足以下三种情况之一时 \(\eta=0\)、平直几何近最优：(a) 所有任务投影 Hessian 相同（曲率同质）、(b) 所有任务向量相同、(c) 曲率偏差与任务向量偏差不相关。\(\eta\gg0\) 时才值得上曲率。这个诊断只有在黎曼框架下才拿得到，而既有平直方法根本无法自检「我的平直假设到底成不成立」。配套的 Theorem 2 还把合并误差界拆成子空间 Fréchet 方差 \(\mathcal{V}_S\)（任务间不可约冲突）+ 残差能量 \(\mathcal{R}_S\)（投影丢失的信息）+ 三阶 Taylor 余项，并指出 TSV-M 只最小化了 \(\mathcal{R}_S\)（取 \(\bm{H}_t=\bm{I}\)）而完全忽略 \(\mathcal{V}_S\)，EpiMer 则在标记基上最小化 \(\mathcal{V}_S\)

统一视角（Proposition 2）：子空间 Fréchet 均值能把现有方法收编为特例——\(\bm{S}=\bm{I}_m,\tilde{\bm{H}}_t=\bm{I}_m\) 是 Task Arithmetic；\(\bm{S}=\bm{I}_m,\tilde{\bm{H}}_t=\mathrm{diag}(\bm{F}_t)\) 是 Fisher Averaging；\(\bm{S}=\bm{I}_m,\tilde{\bm{H}}_t=\bm{H}_t\) 是 Gradient Matching；\(\bm{S}=\) top-\(k\) SVD、\(\tilde{\bm{H}}_t=\bm{I}_p\) 是 TSV-M；只有 EpiMer 同时用了非平凡子空间 + 曲率感知度量。

实验关键数据¶

设定：合并八个图像分类任务（Stanford Cars、DTD、EuroSAT、GTSRB、MNIST、RESISC45、SUN397、SVHN）上微调的 CLIP-ViT，三种 backbone（ViT-B/32、ViT-B/16、ViT-L/14），主指标为八任务平均 top-1 准确率。EpiMer 与 TSV-M 都在 \(k=32\)、各自最优 \(\alpha\) 下报告。

主实验¶

Backbone	AM/TA	TIES	TSV-M	Fisher	EpiMer	微调上限
ViT-B/32	.653	.725	.822	.539	.833	.909
ViT-B/16	.710	.774	.865	.625	.870	.929
ViT-L/14	.791	.859	.906	.720	.906	.943

EpiMer 在三个 backbone 上分别比 TSV-M 高 1.10%、0.48%、0.06%，比 TIES 高 10.8%、9.6%、4.7%。注：ViT-L/14 上 EpiMer 实为 0.9065 vs TSV-M 0.9059（差 0.06 个百分点），三位小数下都显示 .906。全空间对角 Fisher 在每个 backbone 上都崩盘（.539/.625/.720），印证「全空间对角 Fisher 太粗糙」，而子空间投影正是补救之道。

消融实验（全局缩放 α 敏感性，\(k=32\)）¶

Backbone	方法	α=0.20	α=0.30	α=0.50	α=0.70	α=1.00
ViT-B/32	TSV-M	.630	.699	.787	.822	.820
ViT-B/32	EpiMer	.601	.670	.764	.812	.833
ViT-B/16	TSV-M	.688	.747	.822	.857	.865
ViT-B/16	EpiMer	.666	.724	.804	.846	.870
ViT-L/14	TSV-M	.772	.816	.870	.895	.906
ViT-L/14	EpiMer	.766	.808	.863	.890	.906

最优 \(\alpha\) 落在 \([0.7,1.0]\)，远高于文献默认 \(1/\sqrt{T}=1/\sqrt{8}\approx0.354\)；光是调 \(\alpha\) 就能补上大部分到微调上限的差距。在各自最优 \(\alpha\) 处 EpiMer 在每个 backbone、每个 rank 都不落后于 TSV-M。

最差任务鲁棒性¶

EpiMer 的最差单任务 top-1 准确率比 TSV-M 高 0.8%、2.4%、0.1%，比 TIES 高 13.3%、15.1%、8.8%（三个 backbone）。说明曲率感知收紧了最差任务的下界、同时保持平均严格领先，并没有以牺牲弱任务为代价。

关键发现¶

子空间投影 vs 曲率感知谁更重要：在 ViT-B/32 上，把 AM/TA 的 delta 投影到同一标记基已经从 0.653 拉到 TSV-M 的 0.822（子空间贡献），曲率感知再推到 0.833（二阶精修贡献）。即「先靠子空间拿大头，曲率做锦上添花」。
大 backbone 上边际收缩是饱和而非失效：ViT-L/14 上 TSV-M 已到 0.906、距微调上限 0.943 仅 3.7%，二阶精修空间本就有限。
诊断 \(\eta\) 是 within-backbone 信号：每个 backbone 内 \(\eta\) 随 rank \(k\) 单调上升、EpiMer 始终保持正边际；但跨 backbone 的 \(\eta\) 排序并不能预测跨 backbone 的边际排序（ViT-L/14 的 \(\eta\) 最大、边际却最小，因为它已饱和）。
经验 Fisher 极度数据高效：仅用每任务 0.5% 训练数据（batch size 64 下 1–6 个 batch），合并准确率就落在全数据值的 ~0.7% 内，\(f=10\%\) 时已饱和——比测试时自适应基线的数据需求小几个数量级。

亮点与洞察¶

统一性是最大亮点：一个「子空间 Fréchet 均值 + 度量选择」框架，把曲率感知传统（Fisher、Gradient Matching）和谱方法传统（TSV-M、Isotropic）收编为同一公式的特例。这种「先建大一统理论、再把自己方法定位成其中最优实例」的叙事很有说服力。
「合并前可诊断」这件事很巧：\(\eta=\bm{c}^\top\bar{\bm{H}}^{-1}\bm{c}\) 恒非负且可在 \(\mathcal{O}(p^3)\) 算出，相当于给了从业者一个「这批模型值不值得上曲率」的免费体检指标，而平直方法连自检的能力都没有。
「对角 Hessian 投影后变稠密」是关键技术 trick：全空间对角 Fisher 因为共享坐标轴而抹平曲率，但投影到非轴对齐的标记基后立刻恢复跨参数耦合——这个观察可迁移到任何「想用廉价对角近似又怕丢二阶信息」的场景。
误差界的两项分解（方差 + 残差能量） 给「子空间方法为什么 work」提供了清晰解释：TSV-M 只压残差能量、EpiMer 额外压方差，定位非常清楚。

局限与展望¶

绝对增益偏小：在最强基线 TSV-M 之上仅高 1.10%/0.48%/0.06%，ViT-L/14 上几乎追平（0.9065 vs 0.9059）。作者归因于饱和，但这也意味着曲率感知的实际收益高度依赖「基线离上限还有多远」。
依赖 Hessian 半正定与局部极小假设（Assumption 2：微调模型梯度近零）：若微调没收敛到极小、或任务损失非凸到 Hessian 有负特征值，度量合法性存疑。
实验面较窄：只验证了 CLIP-ViT 图像分类八任务，没有 LLM / 多模态 / 更大任务数的合并实验，泛化性待验证。
跨 backbone 诊断失灵：\(\eta\) 只能作 within-backbone 信号、不能跨 backbone 比较，限制了它作为通用「可合并性」度量的价值。
需要重构经验 Fisher：公开 checkpoint 只存权重不存优化器状态，须额外前反传一遍（虽然 0.5% 数据即可），相比纯权重平均方法多一步数据访问。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次用退化黎曼流形 + Fréchet 均值统一曲率感知与谱方法，并给出闭式可合并性诊断
实验充分度: ⭐⭐⭐⭐ 三 backbone × 八任务 + α/rank/数据效率/最差任务多角度消融扎实，但仅限 CLIP-ViT 图像分类、绝对增益偏小
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰、统一表（Table 1）和特例命题让定位一目了然
价值: ⭐⭐⭐⭐ 理论贡献强、诊断量实用，但相对最强基线的经验增益有限，落地价值取决于基线饱和程度