Chain-of-Models Pre-Training: Rethinking Training Acceleration of Vision Foundation Models¶

会议: CVPR 2026
arXiv: 2604.12391
代码: https://github.com/deep-optimization/CoM-PT
领域: 自监督学习 / 训练加速
关键词: 模型链, 预训练加速, 逆向知识转移, CLIP, 视觉基础模型

一句话总结¶

提出 Chain-of-Models Pre-Training (CoM-PT)，将视觉基础模型按大小排列形成"模型链"，通过从小到大的逆向知识转移（权重初始化+特征蒸馏）逐步加速训练，实现性能无损的训练加速且效率随模型家族规模增长而提升。

研究背景与动机¶

领域现状：视觉基础模型（VFM）的预训练代价极其高昂（如 ViT-L/14 在 LAION-2B 上需 1.2×10⁵ A100 GPU 小时），现有加速方法（混合精度、掩码建模、数据高效方法等）都是在单模型维度优化。

现有痛点：VFM 通常以模型家族形式预训练（不同大小满足不同部署场景），但标准的独立训练方式高度冗余——模型共享相同的优化目标、数据集和训练协议，产生的共同知识被反复学习。

核心矛盾：模型家族规模不断增长（更多专用模型尺寸 + 更大模型范围），独立训练的总成本线性增长，产生"承担不断升级的预训练成本"与"牺牲部署灵活性"的困境。

本文目标：实现随模型家族规模高效扩展的预训练加速。

切入角度：从微观看，大模型的训练成本是主要来源；从宏观看，独立训练的冗余是低效根源。同时解决这两个瓶颈的关键是实现家族内小到大的知识复用。

核心 idea：将模型家族按大小排序形成模型链，最小模型标准训练，后续模型通过逆向知识转移（小→大）加速预训练。

方法详解¶

整体框架¶

这篇论文要解决的是模型家族预训练的总成本问题：同一套数据、同一个目标，却要训练好几个不同大小的 VFM 去适配不同部署场景，而标准做法是每个都从头独立训练，导致那些共享的"共同知识"被反复学习。CoM-PT 的破局点是把家族里的模型按尺寸从小到大串成一条链 \(C_M: m_1 \rightarrow m_2 \rightarrow \cdots \rightarrow m_n\)——只有最小的 \(m_1\) 老老实实从头标准训练，之后每个 \(m_{i+1}\) 都站在前一个 \(m_i\) 的肩膀上：把小模型已经学到的知识"逆向"转移过来当训练起点（注意方向是小→大，和常规知识蒸馏的大→小正好相反），从而省掉大量训练步数。这种转移走两条通道并行进行——参数空间的权重初始化和特征空间的特征蒸馏。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["模型链构建<br/>按尺寸排成 m₁→m₂→…→mₙ，定最小模型/扩展比率/epoch 递减"] --> B["最小模型 m₁<br/>从零标准训练（链中唯一从头训）"]
    B --> C["取下一个后继模型 mᵢ₊₁，以前驱 mᵢ 为小教师"]
    subgraph T["逆向知识转移（小→大）"]
        direction TB
        D["逆向权重初始化<br/>函数保持的宽度/深度扩展，搬入静态权重当起点"]
        E["逆向特征蒸馏<br/>训练全程对齐小教师特征，补动态知识"]
    end
    C --> D
    C --> E
    D --> F["mᵢ₊₁ 少训若干步即达标"]
    E --> F
    F -->|沿链接力到下一模型| C
    F --> G["输出整个模型家族<br/>总成本随家族规模反而更省"]

关键设计¶

1. 逆向权重初始化：把小模型的权重直接搬进大模型当起点

大模型最贵的地方在于从随机权重出发收敛慢。CoM-PT 索性复用已经训好的小模型权重作为大模型的初始值，用两种"函数保持"的扩展操作完成尺寸对接：宽度扩展时，把小教师的参数原样嵌入大学生的对应位置，只有多出来的那部分维度才随机初始化；深度扩展时，把每一层的权重复制一份充当它的后继层。"函数保持"的意思是扩展完成的那一刻，大模型的输出和小模型几乎一致——相当于让大模型从一个"已经会做这件事"的状态开始微调，而不是从零摸索，收敛自然快得多。不过这只搬走了某一时刻的权重快照，属于静态知识。

2. 逆向特征蒸馏：补上权重搬不过来的动态知识

光靠权重初始化不够，因为快照捕捉不到小模型在不同样本上的响应规律。逆向特征蒸馏在训练全程持续让大学生的特征去对齐小教师的特征：

\[\mathcal{L}_{IFD}(F^t, F^s) = \alpha \| F^t - \mathbf{T}(F^s) \|_2^2\]

其中特征变换 \(\mathbf{T}(\cdot)\) 把学生特征投影到教师特征空间以对齐维度。在 CLIP 这种双塔结构里，视觉和文本两路特征都要蒸馏并取平均 \(\hat{\mathcal{L}}_{IFD} = (\mathcal{L}_{IFD}(v^t,v^s) + \mathcal{L}_{IFD}(t^t,t^s))/2\)。权重初始化给的是静态起点、特征蒸馏给的是跨样本的动态知识，两条通道接力，"小→大"的知识传递才算完整——消融里两者单独用都不如合用，正印证了这种互补性。

3. 模型链的三条设计原则：决定链怎么串才最省

有了转移机制，还得回答"这条链具体放哪些模型、各训多久"。论文给出三条经验原则：(i) 最小模型按数据规模来选，要小到足够省、又得有足够容量把数据分布拟合住，否则它学到的知识不够扎实，后面接力的起点就差；(ii) 相邻模型的扩展比率取 2×–4×，比率大一点更省成本、小一点则加速比更高，是个可调的权衡；(iii) 训练 epoch 沿链线性递减——越靠后的大模型因为起点更好，需要补的训练越少。正是这三条原则催生出一个反直觉的结果：多塞了两个小模型的 ViT-T→S→B→L 链，总成本反而比只串两个模型的 ViT-B→L 链更低，因为那些中间小模型本身训练极廉价、又能让后面的大模型收敛得更快。

一个完整示例：ViT-T→S→B→L 把 ViT-L 的训练成本压到 28%¶

以训练 ViT-L 为目标，标准独立训练记作 100% MACs（加速比 1.0×），看这条链怎么一步步省下来：

先从头标准训练最小的 ViT-T（成本很低，是整条链唯一"从零开始"的环节）；
ViT-S 用 ViT-T 做逆向权重初始化 + 特征蒸馏，少训很多步就能达标；
ViT-B 再接 ViT-S 的力；
最后 ViT-L 接 ViT-B 的力。

把整条链四个模型的开销全加起来，只占独立训练 ViT-L 的 28% MACs，即 3.6× 加速，而且 ImageNet Top-1 不降反升（38.3% vs 独立训练的 38.2%）。对比只串两个模型的 ViT-B→L 链（48% MACs、2.1×），多接进 T 和 S 这两个廉价模型后，总成本反而从 48% 降到 28%——这就是"训练更多模型反而更高效"最直观的来源。

损失函数 / 训练策略¶

总损失 \(\mathcal{L} = \mathcal{L}_{task} + \hat{\mathcal{L}}_{IFD}\)，任务损失采用 LaCLIP 的对比损失（含文本增强）；训练中确保 \(\mathcal{L}_{IFD} < \mathcal{L}_{task}\)，让蒸馏起辅助作用而不喧宾夺主。

实验关键数据¶

主实验¶

模型链	ImageNet Top-1	训练MACs	加速比
ViT-L 独立训练	38.2%	100%	1.0×
ViT-B→L	38.0%	48%	2.1×
ViT-S→B→L	38.1%	36%	2.8×
ViT-T→S→B→L	38.3%	28%	3.6×

消融实验¶

配置	ImageNet Top-1	说明
完整 CoM-PT	38.3%	权重初始化+特征蒸馏
仅权重初始化	37.8%	无蒸馏
仅特征蒸馏	37.5%	随机初始化
独立训练	38.2%	基线

关键发现¶

反直觉现象：训练更多模型反而更高效——3→4→7个模型时加速比从 4.13× 跃升到 5.68× 和 7.09×
模型链本身驱动主要效率增益，权重初始化和蒸馏各自贡献较小但协同效果好
在 45 个下游数据集上验证了性能无损（<0.5% 精度损失）

亮点与洞察¶

"训练更多模型反而更高效"是一个极具洞察力的发现：因为扩展链中的中间模型借助前驱快速收敛，总开销甚至小于直接训练大模型
方法对预训练范式不可知，可推广到 LLM 预训练等更计算密集的场景
逆向知识转移（小→大）与传统知识蒸馏（大→小）形成对偶，思路新颖

局限与展望¶

主要在 CLIP 上验证，尚未在 LLM 预训练上规模化测试
模型链的设计仍需人工调整，缺乏自动化方法
宽度和深度扩展使用简单的复制/插入策略，可能有更优方案
跨架构的模型链（如 ViT→Swin）尚未探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 模型家族级训练加速是全新视角
实验充分度: ⭐⭐⭐⭐⭐ 45个下游数据集的全面验证
写作质量: ⭐⭐⭐⭐⭐ 微观/宏观视角分析透彻
价值: ⭐⭐⭐⭐⭐ 对大规模预训练有重要实际意义