Revisiting Model Stitching in the Foundation Model Era¶

会议: CVPR 2026
arXiv: 2603.12433
代码: 无
领域: 多模态VLM / 模型融合
关键词: 模型拼接, 视觉基础模型, 表示相容性, VFM Stitch Tree, 多模态LLM

一句话总结¶

本文系统研究视觉基础模型（VFM）之间的拼接可行性，发现传统方法在VFM上失效，提出"Final Feature Matching + Task Loss"两阶段训练策略使异构VFM可靠拼接，拼接模型甚至能超越两个单独VFM，进而提出VFM Stitch Tree（VST）架构为多VFM系统提供可控的精度-效率权衡方案。

研究背景与动机¶

领域现状：视觉基础模型（如CLIP、DINOv2、SigLIP 2）在不同目标函数、数据集和模态组合下预训练，已成为各类下游任务的默认backbone。多模态系统（如MoF-LLaVA、Cambrian-1）越来越多地同时使用多个VFM以捕获互补视觉信息。
现有痛点：
- 模型拼接（model stitching）作为测量表示兼容性的探针工具，已有研究表明同数据集训练的小模型（如ResNet-18 on CIFAR-10）可以拼接，但对异构VFM是否可拼接是未知的。
- 传统拼接训练方法（Layer Feature Matching和Task Loss Training）在VFM上失效——前者在浅层拼接时中间层匹配误差会累积放大导致最终特征偏差大，后者在浅层拼接时梯度需穿过长链冻结层导致优化困难。
- 使用多个VFM带来线性计算/内存开销（k个VFM就是k倍），缺乏高效的共享机制。
核心矛盾：VFM在预训练数据（LAION vs LVD-142M vs WebLI）、目标函数（对比学习 vs 自监督重建）、模态组合（纯视觉 vs 视觉-语言）上差异巨大，直接用简单变换桥接它们的中间表示是不够的。
本文要解决什么？ ①探清异构VFM是否可拼接；②找到可靠的拼接训练方法；③将拼接从诊断工具升级为实用的VFM融合方案。
切入角度：系统分析拼接失败的原因（中间匹配≠最终对齐、梯度衰减），提出对症下药的两阶段方法。
核心idea一句话：用Final Feature Matching在目标VFM的倒数第二层对齐特征作为初始化，再用Task Loss微调，使异构VFM变得可靠可拼接且能融合互补知识。

方法详解¶

整体框架¶

给定源VFM \(f_\theta\) 和目标VFM \(f_\phi\)（均为\(N\)层Transformer），在第\(n\)层拼接：保留源模型前\(n\)层 \(R_\theta^n\) 和目标模型后\(N-n\)层 \(T_\phi^N\)，中间插入可训练拼接层\(S\)。拼接模型 \(F(x) = T_\phi^N \circ S \circ R_\theta^n(x)\)，仅\(S\)可训练，源和目标层全部冻结。

关键设计¶

Final Feature Matching（FFM）
- 功能：为拼接层提供高质量初始化，确保最终输出特征与目标VFM对齐。
- 核心思路：不在拼接点\(n\)处匹配中间特征，而是直接最小化经过拼接后在最终层\(N\)处的特征差异：\(\mathcal{L}_{FFM} = \frac{1}{M}\sum_{i=1}^M \|T_\phi^N(S(R_\theta^n(x_i))) - T_\phi^N(R_\phi^n(x_i))\|_2^2\)。虽然优化目标在最终层，但实验发现FFM同时也隐式地在中间层保持了低特征距离，且最终特征距离远小于Layer Feature Matching方法。
- 设计动机：Layer Feature Matching虽然在拼接点处误差极小（\(10^{-3}\)量级），但这个小误差经过后续冻结层时会被累积放大，导致最终特征严重偏移（尤其浅层拼接）。FFM直接优化最终结果，从根源解决这个问题。且FFM无需标签，可以纯无监督方式训练。
两阶段训练方案（FFM + Task Loss Training）
- 功能：先用FFM建立良好的loss landscape初始化，再用任务损失微调实现下游性能最大化。
- 核心思路：Stage 1用FFM预训练拼接层（无标签），Stage 2用下游任务loss（如交叉熵分类）微调拼接层（有标签）。这个流程特别解决了Task Loss Training在浅层拼接时的优化困难——随机初始化+弱监督信号（从pooled token来的梯度穿过长冻结链）导致loss landscape条件差。FFM initialization将拼接层放到好的起点。
- 设计动机：直接用Task Loss Training在浅层拼接DINOv2→SigLIP2时仅25.1%精度，远低于两个模型各自的linear probing（46.7%和53.5%）。FFM初始化后提升到51.7%，FFM+TLT进一步到55.8%（Layer 6）。
Self-Stitch基线（严格控制实验）
- 功能：区分拼接增益是来自拼接层容量还是真正的VFM知识融合。
- 核心思路：在同一个VFM内部自拼接（如SigLIP2→SigLIP2），使用相同的拼接层、拼接点、训练损失和下游数据。如果跨VFM拼接超越自拼接，说明增益来自真正的互补知识融合而非额外参数/微调带来的容量增加。
- 设计动机：VFM在大规模异构数据上预训练后在下游数据上评估，改善可能只来自拼接层对下游数据的适配（相当于额外的微调参数），Self-Stitch基线排除了这种解释。实验证实跨VFM拼接一致性超越自拼接（+2.3%到+2.6%），确认了真正的互补融合。

损失函数 / 训练策略¶

Stage 1: FFM loss（无标签数据），可以预提取源和目标特征加速训练
Stage 2: 下游任务交叉熵loss（有标签数据）
拼接层：默认使用2层MLP with ReLU（同LLaVA-1.5的特征投影器）
评估VFM对：DINOv2-L, SigLIP2-L, CLIP, DINOv3（均24层Transformer）
拼接点：\(n \in [2, 6, 10, 14, 18, 22]\)

实验关键数据¶

主实验：两阶段方法 vs 原始Task Loss Training¶

拼接	初始化	L2	L6	L10	L14	L18	L22
DINOv2→SigLIP2	无	25.1	39.4	52.6	62.3	68.6	68.6
DINOv2→SigLIP2	FFM	51.7	55.8	59.3	68.0	72.0	71.8
SigLIP2→DINOv2	无	38.7	56.7	58.3	64.4	70.4	70.1
SigLIP2→DINOv2	FFM	53.8	53.8	61.9	69.6	70.4	72.2

跨数据集/任务一致性验证¶

配置	fMoW(L6/14/22)	iNaturalist(L6/14/22)	Aircraft(L6/14/22)	ADE20K seg(L14/22)
DINOv2→DINOv2(自拼接)	41.5/59.7/69.9	56.9/81.5/91.2	37.8/79.3/91.2	35.4/50.9
SigLIP2→SigLIP2(自拼接)	50.5/62.0/68.9	71.2/88.5/87.3	67.9/88.1/89.3	44.5/50.5
DINOv2→SigLIP2	55.8/68.0/71.8	75.9/89.1/92.8	77.8/87.6/92.4	44.9/51.2
SigLIP2→DINOv2	53.8/69.6/72.2	86.3/88.9/91.9	80.7/89.0/91.0	49.0/51.4

消融：拼接层类型¶

拼接层	L2	L6	L10	L14	L18	L22
Linear	26.1/50.3	54.3/56.4	59.5/60.0	66.5/65.7	69.1/69.6	69.6/71.9
MLP	51.7/53.8	55.8/53.8	59.3/61.9	68.0/69.6	72.0/70.4	71.8/72.2
LoRA	49.1/48.3	49.4/56.2	57.4/62.4	61.7/65.3	67.7/66.2	67.3/65.0

关键发现¶

FFM初始化对浅层拼接效果最显著（L2: 25.1→51.7），在深层拼接也有稳定增益（L22: 68.6→71.8）。
跨VFM拼接一致性超越自拼接（+0.7%到+5.5%），在分类和语义分割上都成立，确认了真正的互补知识融合。
MLP拼接层整体最优，LoRA虽然表达力更强但反而不如MLP——可能因为适度的mismatch有助于互补信息融合。
CLIP作为源模型时拼接效果差（弱编码器丢失了任务关键信息），但作为目标模型时效果好，类似encoder-decoder架构中升级encoder的效果。
VST-22仅用4.3%额外资源即可获得双VFM45%的性能增益，VST-14用39%额外资源获得84%增益。

亮点与洞察¶

"FFM同时实现了隐式局部对齐"这个意外发现非常有insight：虽然只在最终层匹配，但监督信号可以隐式传导到中间层促进局部对齐，说明深层的匹配可以有效约束浅层的表示。
Self-Stitch基线的实验设计非常严谨，彻底排除了"只是多了点参数"的替代解释，是负责任的实验方法论典范。
VFM Stitch Tree的accuracy-latency旋钮思想非常实用：不再是"用不用第二个VFM"的二选一，而是可以在4.3%-100%额外开销之间连续调节，适合不同部署预算。
将Model Stitching从纯诊断工具升级为实用融合方案，是一个有意义的范式转变。

局限性 / 可改进方向¶

VST的评估仅在VQAv2和MME上进行了初步验证（称为"early exploration"），后续需扩展到更多多模态benchmark（如SEED-Bench、MMVet等）以全面衡量融合增益。
当前仅测试了ViT-L规模的VFM，对更大规模（如ViT-G）或不同架构的VFM的拼接性待验证。
拼接层训练需要无标签数据上的VFM前向推理（FFM阶段），对于非常大的VFM可能计算成本不低。
可以探索自适应拼接点选择（而非手动选择哪层拼接），以及多于两个VFM的拼接树设计。
FFM loss is label-free但仍需在下游domain的数据上训练，zero-shot场景下效果未知。

评分¶

新颖性: ⭐⭐⭐⭐ FFM和两阶段方案虽然简洁但有效，VST应用有新意，但整体属于careful engineering
实验充分度: ⭐⭐⭐⭐⭐ 多VFM对、多数据集、多任务、多拼接层类型的系统验证，Self-Stitch控制实验设计精巧
写作质量: ⭐⭐⭐⭐⭐ 逻辑推导清晰，从诊断到处方再到应用层层推进，示范性的研究论文写法
价值: ⭐⭐⭐⭐ 对理解VFM表示兼容性有重要贡献，VST为多VFM部署提供了实用方案