MergeTune: Continued Fine-Tuning of Vision-Language Models¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=MAApSY32Z6
论文: OpenReview
代码: https://github.com/Surrey-UP-Lab/MERGETUNE
领域: 多模态VLM
关键词: VLM持续微调, CLIP适配, 模型合并, 线性模式连通性, 灾难性遗忘

一句话总结¶

MERGETUNE 把“已经微调完的 CLIP/VLM 还能不能补回预训练知识”单独定义成 continued fine-tuning 问题，通过线性模式连通性约束继续优化已训练参数，让最终模型同时接近 zero-shot CLIP 和下游微调模型，在不加推理参数的情况下提升 base-novel、跨数据集、域泛化和 ID-OOD 鲁棒性。

研究背景与动机¶

领域现状：CLIP 这类视觉-语言模型依靠大规模图文预训练获得很强的 zero-shot 泛化能力，但真实下游任务往往还需要适配。常见做法包括 CoOp、KgCoOp、MMA、PromptKD 这类参数高效微调方法，只更新 prompt、adapter 或轻量分类头；另一条线是 robust fine-tuning，在 ImageNet 之类的大数据上微调整个模型或线性头，再用权重平均、预测集成等方式缓和分布外性能下降。

现有痛点：这些方法通常把目标放在“微调过程中尽量少忘”，但微调完成后仍然会丢掉一部分预训练知识。论文的一个直接观察是，在 11 个跨数据集评测上，没有一个已有 PEFT 方法能稳定超过 CLIP；而 TIES、DARE 这类训练后模型合并方法直接拿 zero-shot 和 fine-tuned checkpoint 做合并时也经常退化，说明两个解在权重空间里并不天然处在一条好走的低损失直线上。

核心矛盾：下游微调希望模型向任务数据靠近，zero-shot 泛化又依赖原始预训练解附近的知识。简单限制更新会牺牲适配能力，简单合并 checkpoint 又可能跨过高损失区域，导致 base 类、novel 类或 OOD 数据之间出现不稳定 trade-off。问题不只是“两个模型怎么平均”，而是“能不能学出一个新解，使它同时和两个端点保持低损失连通”。

本文目标：作者把这个问题改写成 continued fine-tuning：给定已经完成适配的模型，不推翻原有微调流程，不改架构，也不要求重新拿预训练数据训练，而是在 post hoc 阶段继续优化可训练参数，恢复 fine-tuned 模型遗忘掉的预训练知识，同时保留下游任务性能。

切入角度：MERGETUNE 从模型合并和 mode connectivity 的几何视角出发。若一个模型 \(w\) 与 zero-shot 解 \(\hat{w}_1\)、fine-tuned 解 \(\hat{w}_2\) 之间都存在低损失线性路径，那么 \(w\) 就不再只是二者的粗暴平均，而是处在能同时承接两端知识的连通区域里。作者把这个性质直接变成训练目标，而不是训练后再被动尝试平均。

核心 idea：用线性模式连通性指导 continued fine-tuning，学习一个与 zero-shot CLIP 和下游微调模型都低损失相连的 continued model，从而把预训练泛化能力“补回”已经适配过的 VLM。

方法详解¶

整体框架¶

MERGETUNE 的输入是两个 checkpoint：zero-shot VLM 权重 \(\hat{w}_1\)，例如原始 CLIP；以及某个下游方法已经训练好的权重 \(\hat{w}_2\)，例如 CoOp、KgCoOp、MMA、PromptKD、linear probing 或端到端微调后的 CLIP。方法不新增网络结构，而是在原方法允许训练的参数空间里初始化一个 continued model \(w\)，继续用下游数据训练它，并同时约束它靠近 zero-shot 解、与 fine-tuned 解保持低损失线性连通。训练结束后，单个 \(w\) 直接用于推理；在 robust fine-tuning 场景下，也可以再把 \(w\) 与 zero-shot 模型做一次普通权重插值，作为更强的 ensemble 版本。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["zero-shot VLM<br/>预训练知识"] --> C["双端点 continued<br/>fine-tuning"]
    B["fine-tuned VLM<br/>下游适配知识"] --> C
    C --> D["预训练端 replay-free<br/>二阶代理约束"]
    C --> E["下游端 LMC<br/>低损失路径约束"]
    D --> F["continued model<br/>单模型推理"]
    E --> F
    F --> G["可选权重集成<br/>进一步鲁棒化"]

这张图里真正的贡献节点是三个：双端点 continued fine-tuning 定义了 MERGETUNE 要找的目标解；预训练端 replay-free 二阶代理约束解决 CLIP 预训练数据不可重放的问题；下游端 LMC 低损失路径约束让 continued model 不只在当前点好，而是在通往 fine-tuned checkpoint 的插值路径上也保持好。可选权重集成只是后处理增强，不是方法必须依赖的结构。

关键设计¶

1. 双端点 continued fine-tuning：把遗忘恢复放到微调之后解决

MERGETUNE 最重要的视角转变，是不再把灾难性遗忘只当作微调时的正则化问题。传统 PEFT 会在训练中限制可更新参数或加入知识约束，robust fine-tuning 则常在训练后把 zero-shot 与 fine-tuned 模型做平均或集成；但如果 fine-tuned 模型已经离 zero-shot 解较远，直接平均可能穿过高损失区域。本文反过来问：既然已有一个适配好的模型，能不能继续训练出第三个模型 \(w\)，让它成为两个端点之间更可合并、更平滑的桥。

形式上，理想目标是让 \(w\) 与 zero-shot 解 \(\hat{w}_1\)、fine-tuned 解 \(\hat{w}_2\) 分别通过线性插值相连，并且沿路损失都低：

\[ w = \arg\min_w \mathbb{E}_{\alpha \sim U[0,1]}\left[L_1(\hat{w}_1 + \alpha(w - \hat{w}_1)) + L_2(\hat{w}_2 + \alpha(w - \hat{w}_2))\right]. \]

这个目标比普通权重平均更主动：它不是挑一个插值系数 \(\alpha\) 去赌哪个平均点更好，而是通过训练改变 \(w\) 的位置，让 \(w\) 自己进入一个同时承接预训练知识和下游知识的低损失连通区域。也因此，MERGETUNE 可以作为 post hoc enhancement 接在不同 VLM 适配方法后面：prompt tuning 时 \(w\) 对应 text encoder 产生的分类器权重，adapter 方法时 \(w\) 包含 adapter 参数，many-shot robust fine-tuning 时 \(w\) 可以是线性头或整个模型。

2. 预训练端 replay-free 二阶代理约束：不用 CLIP 原始数据也能拉住 zero-shot 知识

理想 LMC 目标里有一个难点：\(L_1\) 是 CLIP 预训练任务损失，需要 web-scale 图文预训练数据。CLIP 的原始语料通常不可得，即便可得也不可能在 continued fine-tuning 阶段重放。MERGETUNE 因此没有硬凑一个小规模替代数据集，而是对 zero-shot 端的插值损失做二阶 Taylor 近似。

在 \(\hat{w}_1\) 附近，论文把

\[ L_1(\hat{w}_1 + \alpha(w - \hat{w}_1)) \]

展开为常数项、梯度项和 Hessian 二次项。由于 zero-shot checkpoint 被视为预训练任务的局部最优点，作者假设 \(\nabla L_1(\hat{w}_1) \approx 0\)；再用各向同性曲率 \(H_1 \approx \mu I\) 简化 Hessian。这样预训练端的损失就变成一个距离正则：

\[ R_{Task1} = \lambda \|w - \hat{w}_1\|^2. \]

这个设计的关键不是“让模型完全别离开 CLIP”，而是给 continued model 一根通向 zero-shot 解的几何锚点。它比重放预训练数据便宜得多，也比只用下游数据继续训练更不容易继续遗忘；同时，由于 MERGETUNE 还保留下游任务损失和 fine-tuned 端 LMC 约束，\(w\) 不会简单退回原始 CLIP。

3. 下游端 LMC 低损失路径约束：让新模型与原 fine-tuned 解可平滑合并

如果只用 \(L_2(w)\) 加上 \(\lambda\|w-\hat{w}_1\|^2\)，模型会受到 zero-shot 端牵引，但未必能保住原来的下游适配知识。MERGETUNE 因此在 fine-tuned 端显式加入 LMC 项：从 \(\hat{w}_2\) 到 \(w\) 取若干插值点 \(\hat{w}_2 + \alpha(w-\hat{w}_2)\)，在这些插值模型上计算下游任务损失 \(L_2\)，要求整条路径都低损失。

最终 replay-free 目标写成：

\[ L(w) = L_2(w) + \lambda\|w - \hat{w}_1\|^2 + \beta\mathbb{E}_{\alpha \sim U[0,1)}L_2(\hat{w}_2 + \alpha(w - \hat{w}_2)). \]

其中 \(L_2(w)\) 确保 continued model 本身在下游训练数据上有效，\(\lambda\) 控制保留 zero-shot 知识的强度，\(\beta\) 控制与 fine-tuned 解的连通性。论文实际训练时用少量均匀采样的 \(\alpha\) 点近似期望，例如 5 或 10 个点；附录显示 \(N_\alpha\) 从 1 增至 5 会明显提升，之后收益趋于饱和，而训练成本继续上升，所以 \(N_\alpha=5\) 是更均衡的选择。这个约束解释了为什么 MERGETUNE 比 TIES/DARE 更稳：TIES/DARE 试图在训练后处理参数干扰，但没有在训练目标里保证插值路径低损失。

损失函数 / 训练策略¶

训练流程可以理解为三步。第一步，先按原 baseline 训练出下游 checkpoint \(\hat{w}_2\)，zero-shot checkpoint \(\hat{w}_1\) 固定不动。第二步，用 \(w=(1-\tau)\hat{w}_1+\tau\hat{w}_2\) 初始化 continued model；附录里 \(\tau\in[0.3,0.6]\) 往往最好，说明从两端平衡初始化比完全从 CLIP 或完全从 fine-tuned 权重出发更稳。第三步，在每个 minibatch 上计算下游损失、zero-shot 端距离正则，以及若干插值点上的 LMC 损失，再用与 baseline 相同或相近的优化配置继续训练。

少样本设置下，作者在 16-shot 条件评估 CoOp、KgCoOp、MMA、PromptKD，主干为 CLIP ViT-B/16。CoOp+MERGETUNE 沿用 batch size 128、学习率 0.002 等设置，continued fine-tuning 训练 50 epoch；PromptKD+MERGETUNE 沿用 teacher-student prompt distillation 的训练日程；MMA+MERGETUNE 则继续训练多模态 adapter。多样本 robust fine-tuning 设置下，linear probing 只训练分类头，E2E-FT 同时训练 encoder 和分类头，MERGETUNE 再用对应优化器和 schedule 做相同轮数的 continued fine-tuning。

超参方面，Table 7 显示在 KgCoOp 初始化上，\(\lambda\) 与 \(\beta\) 的可用范围相对宽。\(\lambda=8, \beta=0.5\) 时平均 harmonic mean 为 77.62，是表中较优点；\(\lambda\in[8,16]\)、\(\beta\in[0.1,0.5]\) 都能维持接近最优的表现。作者还检查了长时间 continued fine-tuning 是否会 over-merging，在 Siglip2-B/16 + CoOp 上从 10 到 100 epoch 没观察到性能下降，说明双端点约束确实给训练提供了稳定锚点。

实验关键数据¶

主实验¶

MERGETUNE 的主实验覆盖四类协议：base-to-novel generalisation、cross-dataset generalisation、domain generalisation，以及 many-shot ID-OOD robust fine-tuning。最核心的结论是：训练后直接合并的 TIES/DARE 在 PEFT 场景经常退化，而 MERGETUNE 在不同 baseline 上都给出正增益，尤其对遗忘更明显的 CoOp 提升最大。

设置	Baseline	原方法	TIES / DARE	MERGETUNE	主要结论
Base-to-novel 平均 HM	CoOp	71.66	66.32 / 70.59	77.24	相比 CoOp +5.58，且训练后合并反而掉点
Base-to-novel 平均 HM	KgCoOp	77.01	72.56 / 75.17	77.98	在较强知识保持 baseline 上仍有 +0.97
Base-to-novel 平均 HM	MMA	79.87	69.41 / 71.81	80.44	结构不同场景下只合并 linear head，仍优于原 MMA
Base-to-novel 平均 HM	PromptKD	83.73	79.52 / 82.13	84.09	强 baseline 上增益较小但稳定，为 +0.36
Cross-dataset Avg-C	CoOp	63.88	63.80 / 61.67	65.80	ImageNet 训练后迁移到 10 个数据集，+1.92
Domain Avg-D	CoOp	59.28	53.20 / 57.64	60.15	ImageNet shift 上 +0.87，TIES/DARE 明显退化

在 base-to-novel 表里，CoOp 的 base accuracy 原本高、novel accuracy 低，典型反映了 prompt tuning 对 base 类适配过强、novel 类泛化被削弱。MERGETUNE 把 CoOp 的 Novel 从 63.22 提升到 73.97，HM 从 71.66 提到 77.24，同时 Base 仍保持 80.82。相比之下，CoOp+TIES 的 HM 只有 66.32，说明 zero-shot 和 fine-tuned 权重之间没有天然可用的线性通道。

在 robust fine-tuning 里，MERGETUNE 也比复杂 ensemble 更有吸引力：单个 LMC-tuned 模型就超过 VRF 等方法，如果再和 zero-shot 模型做一次权重插值，可以得到更高 OOD 平均准确率。

Robust fine-tuning 设置	方法	ImageNet	Avg-D	相对原 fine-tuned 提升	推理形态
Linear probing	原始 LP	79.79	57.39	-	单模型
Linear probing	Weight ensemble	79.80	58.56	+1.17	单次权重插值
Linear probing	VRF	79.84	58.87	+1.48	需要额外失败集/距离计算
Linear probing	MERGETUNE	79.96	59.66	+2.27	单模型
Linear probing	MERGETUNE + Weight ens.	79.88	60.23	+2.84	单次权重插值
E2E-FT	原始 E2E-FT	81.31	53.70	-	单模型
E2E-FT	VRF	82.32	61.72	+8.02	额外推理开销
E2E-FT	MERGETUNE	82.26	62.29	+8.59	单模型
E2E-FT	MERGETUNE + Weight ens.	82.18	62.90	+9.20	单次权重插值

消融实验¶

配置	关键指标	说明
\(\lambda=1, \beta=0.1\)	HM 76.44	zero-shot 端约束较弱，novel 恢复不足
\(\lambda=8, \beta=0.5\)	HM 77.62	主设置之一，base/new 平衡最好
\(\lambda=16, \beta=2\)	HM 77.52	较强正则仍稳定，但没有明显继续提升
初始化 \(\tau=0.0\)	HM 76.94	从 CLIP 出发偏向预训练端，保留下游适配较弱
初始化 \(\tau=0.3\)	HM 77.62	平衡初始化效果最好之一
初始化 \(\tau=1.0\)	HM 77.24	从 fine-tuned 权重出发仍可用，但恢复预训练知识稍弱
\(N_\alpha=1\)	HM 77.19	插值路径采样太少，LMC 约束不充分
\(N_\alpha=5\)	HM 77.62	性能与成本折中点
\(N_\alpha=15\)	HM 77.70	只比 5 点略高，但训练成本约 7 倍于 KgCoOp

关键发现¶

MERGETUNE 的增益与 baseline 遗忘程度有关：CoOp 原本 novel 类掉得最明显，所以 +5.58 HM；PromptKD 已经通过外部 teacher 保留了较多知识，因此只增加 +0.36，但仍没有负增益。
训练后直接合并在 PEFT 场景不可靠。TIES 和 DARE 在 CoOp、KgCoOp、MMA、PromptKD 上大多降低 HM，说明“模型合并”本身不是答案，关键是训练过程中要显式塑造低损失连通路径。
域泛化和跨数据集结果显示，MERGETUNE 恢复的不是单个 novel split 上的偶然收益，而是更接近 CLIP 原本的跨域知识。MMA+MERGETUNE 在 cross-dataset 中平均 66.30，超过 CLIP 的 65.24，并且作者强调它在所有评测数据集上都能超过 CLIP。
robust fine-tuning 中，MERGETUNE 单模型推理就超过 VRF；如果进一步与 zero-shot 做普通权重插值，LP 和 E2E-FT 的 Avg-D 分别到 60.23 和 62.90，是表中最高结果。
附录的 backbone 扩展说明方法不只适用于 CLIP ViT-B/16：在 CLIP-L/14、Siglip2-B/16、Siglip2-L/16 上，CoOp+MERGETUNE 的平均 HM 分别比 CoOp 高 +1.93、+1.60、+1.30。

亮点与洞察¶

MERGETUNE 的亮点在于把“恢复遗忘知识”从微调过程里拆出来，变成一个清晰的 post hoc continued fine-tuning 阶段。这个设定很实用，因为很多已有 VLM 适配方法已经训练好了，研究者或工程团队并不一定愿意重新设计架构或重跑完整 pipeline。
论文没有停留在“CLIP 权重离 fine-tuned 权重不要太远”这种直觉正则，而是用线性模式连通性解释为什么模型合并有时有效、有时失败。它把低损失路径从事后观察变成训练目标，这是比 TIES/DARE 更本质的差异。
二阶代理约束很朴素但切中工程痛点。对于 CLIP 这类预训练语料不可得的模型，如果 continued fine-tuning 还要求 replay 预训练数据，方法基本不可用；用 \(\lambda\|w-\hat{w}_1\|^2\) 代替预训练端 LMC 虽然近似粗糙，但让整个框架变成真正可执行的后处理步骤。
这篇论文对“模型合并”和“参数高效微调”的连接很有启发。很多 VLM/LLM adaptation 方法都可以看成在某个轻量参数子空间里移动，MERGETUNE 提示我们：与其训练后硬合并，不如在训练阶段把可合并性、连通性和知识保留显式写进目标。
robust fine-tuning 结果尤其有工程价值。VRF 这类方法虽然强，但需要构造 failure set 或做额外 per-sample 操作；MERGETUNE 得到的是一个普通 checkpoint，推理成本和原模型基本一致，更容易落地到部署场景。

局限与展望¶

zero-shot 端的二阶代理依赖较强假设：\(\nabla L_1(\hat{w}_1)\approx 0\) 和 \(H_1\approx\mu I\) 对大型 VLM 未必严格成立。实验说明这个近似有效，但它更像一个实用正则，而不是精确刻画预训练损失地形。
MERGETUNE 仍然需要下游数据继续训练，并不是完全 training-free。对于只有 checkpoint、没有原下游训练集的场景，它无法直接应用；而 TIES/DARE 虽然效果差一些，但对数据依赖更低。
插值点数量会增加训练开销。附录显示 \(N_\alpha=5\) 已经约为 KgCoOp 训练成本的 3 倍，\(N_\alpha=10\) 约 5 倍，因此在大模型或多任务场景下需要更高效的 LMC 近似。
实验主要集中在分类式 VLM 适配与 CLIP/SigLIP 风格 encoder 上。对于生成式多模态模型、视觉问答、多轮 agentic VLM 或 dense prediction 任务，\(w\) 的定义、损失路径以及评估指标可能更复杂。
未来可以把 MERGETUNE 和 LoRA/adapter bank、多任务 prompt pool、continual learning memory 结合起来：一边保持不同任务端点的 LMC，一边学习可组合的轻量模块，而不是每次只连接 zero-shot 与单个 fine-tuned checkpoint。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把 LMC 从解释模型合并的现象变成 post hoc continued fine-tuning 目标，问题定义和方法结合很清楚，但 zero-shot 端代理正则相对朴素。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 PEFT、cross-dataset、domain generalisation、ID-OOD robust fine-tuning、多 backbone、超参和插值路径分析，证据链比较完整。
写作质量: ⭐⭐⭐⭐☆ 主文逻辑顺，从遗忘现象到 LMC 目标很自然；但表格很密，部分实验细节和符号解释需要读附录才能完全拼齐。
价值: ⭐⭐⭐⭐⭐ 方法简单、无需改架构、推理不加参数，能作为已有 VLM fine-tuning pipeline 的后处理增强，工程迁移价值较高。