TRACER: 用 WMA teacher + 几何分解证明的鲁棒多模态微调¶
会议: ICML 2026
arXiv: 2605.29380
代码: https://github.com/HesamAsad/TRACER
领域: CLIP 微调 / 鲁棒性 / 自蒸馏
关键词: CLIP 微调, OOD 鲁棒性, 自蒸馏, EMA teacher, WMA teacher
一句话总结¶
TRACER 用闭式解理论把对比微调的几何分解为"任务子空间"+"正交保留"两部分,证明 EMA teacher 会坍缩失去正则化力,提出 Weighted Moving Average (WMA) teacher 保持 finite-horizon 持续约束力且对任务子空间无偏收敛;在 CLIP ViT-B/16 上 ImageNet 分布偏移平均提升至 64.07% vs CaRot 62.54%。
研究背景与动机¶
领域现状:CLIP 类多模态模型的零样本迁移很强,但下游微调常伤害 OOD 鲁棒性(catastrophic forgetting)。已有缓解方法分四类——LP-FT(先线性头后全微调)、FLYP(复用预训练 text encoder 当 head)、WiSE-FT/Model Stock(权重插值)、L2-SP/自蒸馏(regularization)。
现有痛点:(1) 多数方法是经验设计,缺乏对"forgetting 发生在哪、为什么"的理论解释;(2) 自蒸馏方法多用 EMA teacher,但 EMA teacher 会逐渐跟 student 一致,teacher-student gap 收敛到 0 → 正则化力消失——恰好是 OOD 鲁棒性最脆弱的训练后期。
核心矛盾:要保 OOD 鲁棒性就得有持续的正则化锚点;EMA 锚点会自动 collapse 到 student;静态 teacher(fixed at 初始权重)虽不 collapse 但引入"anchor bias",无法收敛到任务最优。
本文目标:(1) 给对比微调一个 closed-form 解析框架,说清楚每种 finetuning strategy 的几何行为;(2) 设计一个 teacher 既能保持持续正则化力又能 bias-free 收敛到任务最优。
切入角度:用 linearized analysis(image encoder 当线性投影)+ 引入 contrastive target matrix \(\mathbf{Y}_{\mathrm{FT}} = \mathbf{W}_T^0 \mathbf{X}_T (n \mathbf{I}_n - \mathbf{J}_n)\) 把对比 loss 等价到 matrix least-squares,从而得到所有 finetuning strategy 的闭式解,几何上分解成"任务子空间内的变化"vs"正交子空间内的保留"。
核心 idea:把 teacher 从 EMA 换成 WMA(Weighted Moving Average over the whole student trajectory,with Beta(0.5, 0.5) U-shape kernel),证明 WMA teacher 在任务子空间内收敛到 minimum-norm 任务解、在正交子空间内保留预训练知识,且 finite-horizon 内 teacher-student gap 不消失。
方法详解¶
整体框架¶
TRACER loss = \(\mathcal{L}_{\mathrm{MMCL}} + \lambda_{\mathrm{SD}} \mathcal{L}_{\mathrm{SD-WMA}}\)。前者是 standard CLIP InfoNCE + cross-Frobenius regularizer,后者是从 WMA teacher 蒸馏出来的多视角损失(feature distillation + contrastive relational distillation + interactive contrastive learning + cross-knowledge distillation)。
每个 training step:(1) student 用 MMCL gradient 更新;(2) WMA teacher 用 \(\mathbf{W}_{\mathrm{Teacher}}^t = (1-\omega_t) \mathbf{W}_{\mathrm{Teacher}}^{t-1} + \omega_t \mathbf{W}_I^t\) 更新,\(\omega_t = \kappa(\tau_t) / \sum_j \kappa(\tau_j)\) 是基于 Beta(0.5, 0.5) kernel 的权重;(3) teacher 给 student 反馈四种 distillation 信号。
关键设计¶
-
Contrastive Target Matrix + 闭式解几何分解:
- 功能:把对比 finetuning 的非线性优化问题转成 matrix least-squares,得到每种策略的闭式解,从而几何上看清楚 forgetting 发生在哪。
- 核心思路:定义 \(\mathbf{Y}_{\mathrm{FT}} = \mathbf{W}_T^0 \mathbf{X}_T (n \mathbf{I}_n - \mathbf{J}_n)\)(frozen text encoder + centered contrast operator),证明 linearized MMCL loss 等价于 \(\min_{\mathbf{W}_I} \frac{1}{2} \|\mathbf{W}_I \mathbf{X}_I - \mathbf{Y}_{\mathrm{FT}}\|_F^2\)。Theorem 3.2 给出三种策略的闭式解——Direct FT:\(\mathbf{W}_I^0 (I - \mathcal{P}_I) + \mathbf{Y}_{\mathrm{FT}} \mathbf{X}_I^\top (\mathbf{X}_I \mathbf{X}_I^\top)^+\)(保留正交,替换平行);L2-SP:blend all directions(无结构化分解);Static SD:\(\mathbf{W}_I^0 (I - \frac{1}{1+\lambda} \mathcal{P}_I) + \frac{1}{1+\lambda} \mathbf{Y}_{\mathrm{FT}} \mathbf{X}_I^\top (\mathbf{X}_I \mathbf{X}_I^\top)^+\)(正交保留 + 任务子空间 convex combination)。
- 设计动机:以前"为什么 SD 好"是经验答案,本文证明 SD 在结构上既保正交知识又适应新任务,而 L2 把所有方向都揉成 blend,物理上对应 catastrophic forgetting 在正交子空间也发生。这给"用 SD 而非 L2"的理论依据。
-
WMA teacher:U-shape kernel + bias-free 收敛证明:
- 功能:解决 EMA teacher 的 collapse 和 static SD 的 anchor bias 两个问题。
- 核心思路:WMA teacher 是 student 整条 trajectory 的加权平均,kernel \(\kappa(\tau)\) 用 Beta(0.5, 0.5) U-shape——既给初始 checkpoint(保 robust 先验)也给末期 checkpoint(保 task adaptation)权重。\(\tau_k = (k + 0.5) / (T + 1) \in (0, 1)\) 严格在端点内避免 Beta 发散。在线递推 \(\omega_t = \kappa(\tau_t) / \sum_{j=0}^t \kappa(\tau_j)\);teacher \(\mathbf{W}_{\mathrm{Teacher}}^t = (1 - \omega_t) \mathbf{W}_{\mathrm{Teacher}}^{t-1} + \omega_t \mathbf{W}_I^t\)。Theorem 3.4 证明 student 在任务子空间内收敛到 \(\mathbf{W}_{\mathrm{FT}}^\star \mathcal{P}_I\)(minimum-norm 任务解),且保留正交分量。
- 设计动机:EMA \(\omega_t = (1-\alpha)\) 常数 → teacher 跟 student 指数收敛,gap 消失;static SD \(\omega_t = 0\) for \(t > 0\) → bias 永不消除。WMA 的 U-shape 让"早期 anchor"和"近期 anchor"都有非零权重,finite-horizon 内 teacher-student gap 保持有意义大小,同时 trajectory-weighted 平均能 bias-free 收敛。这是理论与设计的完美对应。
-
多视角 distillation 损失 \(\mathcal{L}_{\mathrm{SD-WMA}}\):
- 功能:让 student 从 WMA teacher 多个角度学习,比单一 feature alignment 更鲁棒。
- 核心思路:四个子损失——(i) Feature Distillation:直接对齐 student/teacher embedding;(ii) Contrastive Relational Distillation:匹配 batch-wise similarity 分布;(iii) Interactive Contrastive Learning:跨模态 student-teacher 对齐;(iv) Cross Knowledge Distillation:跨模态 logits 对齐。组合权重在 Appendix C.6 详述。
- 设计动机:单一蒸馏(如只 FD)容易让 student 在某一表征维度过拟合 teacher;四视角覆盖"特征/关系/跨模态/logits"四个层级,把"保留预训练知识"的多重含义都涵盖到。Ablation(Section B)显示去掉任一组件 ID/OOD 都掉。
Toy 实验:MNIST + ColoredMNIST¶
预训练 MNIST 多模态对比模型,然后在 ColoredMNIST(数字 0-4 95% 红、5-9 95% 蓝的 spurious correlation)上微调。Direct FT 学新任务但 MNIST 准确率从 96.8% 掉到 59.0%(forgetting 37.9%);L2 Reg forgetting 13.6%;Static SD forgetting 1.8%;Dynamic SD(WMA)forgetting 0.1%——验证理论预测的"几何分解 → forgetting rate"关系。
实验关键数据¶
主实验:CLIP ViT-B/16 在 ImageNet + 分布偏移¶
| 方法 | IN | IN-V2 | IN-R | IN-A | IN-S | ObjNet | 平均 |
|---|---|---|---|---|---|---|---|
| ZS (zero-shot) | 68.33 | 61.93 | 77.71 | 49.95 | 48.26 | 54.17 | 58.39 |
| LP-FT | 82.44 | 72.74 | 72.81 | 49.28 | 50.31 | 54.42 | 59.91 |
| FLYP | 82.72 | 72.76 | 71.32 | 48.49 | 49.87 | 54.83 | 59.45 |
| Lipsum-FT | 83.32 | 73.57 | 75.93 | 49.87 | 51.43 | 54.35 | 61.03 |
| CaRot | 83.15 | 74.08 | 77.74 | 51.57 | 52.68 | 56.63 | 62.54 |
| TRACER | 82.76 | 74.14 | 79.33 | 54.92 | 53.69 | 58.26 | 64.07 |
TRACER 在所有 5 个 OOD benchmark 上都领先,平均 64.07% vs CaRot 62.54%(+1.53);ID(ImageNet)上略低 82.76 vs CaRot 83.15(trade-off in favor of OOD),但与其他方法的差距 < 0.5 可接受。IN-A(adversarial natural examples)上 TRACER 54.92 vs CaRot 51.57(+3.35)是最大改善,验证 WMA teacher 对极端 OOD 的鲁棒性。
与更多 baseline 对比(ImageNet 5 列)¶
| 方法 | IN | IN-V2 | IN-R | IN-A | IN-S | 平均 shifts |
|---|---|---|---|---|---|---|
| Direct FT | 82.83 | 72.57 | 68.53 | 39.23 | 47.97 | 57.08 |
| L2-SP | 82.87 | 72.63 | 68.77 | 39.73 | 48.23 | 57.34 |
| Static SD | 82.07 | 73.13 | 72.87 | 42.33 | 49.87 | 59.55 |
| LP-FT | 82.14 | 72.09 | 70.44 | 46.32 | 48.65 | 59.38 |
| FLYP | 82.72 | 72.76 | 71.32 | 48.49 | 49.87 | 60.61 |
| CAR-FT | 83.27 | 74.03 | 75.37 | 49.53 | 52.97 | 62.98 |
| Lipsum-FT | 83.33 | 73.57 | 75.93 | 49.87 | 51.43 | 62.70 |
| Model Stock | 84.07 | 74.83 | 71.77 | 51.23 | 51.77 | 62.40 |
| ARF | 82.73 | 72.77 | 75.63 | 50.27 | 51.83 | 62.63 |
| CaRot | 83.15 | 74.08 | 77.74 | 51.57 | 52.68 | 62.98 |
| TRACER | 82.76 | 74.14 | 79.33 | 54.92 | 53.69 | 64.07 |
跟广泛 baseline 比 TRACER OOD 平均最强;ID 仅次于 Model Stock 但 Model Stock 在 IN-A 上掉 (51.23) 而 TRACER 涨 (54.92)。
关键发现¶
- WMA teacher 解决 EMA collapse:训练后期 EMA teacher-student gap → 0,TRACER 用 WMA 保持 gap,OOD 性能稳定提升而非衰退。
- 几何分解理论的实证支持:Direct FT 在 IN-A 掉到 39.23 vs ZS 49.95,说明 forgetting 不只在 IN 上发生而是在更难 OOD 上更严重;TRACER 反而把 IN-A 推到 54.92,证明 trajectory-weighted teacher 真的保住了 robustness。
- 任务子空间 + 正交子空间分解:从 SD 的闭式解看,只要 \(\lambda > 0\) 任务子空间内就 bias toward \(\mathbf{W}_I^0\),导致欠拟合;WMA teacher 通过动态 anchor 让任务子空间收敛到 minimum-norm 解,"既不偏 init 也不过拟合"。
- ColoredMNIST toy 实验完美匹配理论:forgetting rate Direct (37.9%) > L2 (13.6%) > Static SD (1.8%) > Dynamic SD (0.1%) 跟闭式解的几何排序一致——是理论 → 实证 → 设计的优雅闭环。
- Lipsum-FT、CaRot 都强但 TRACER 仍 +1-2:与最近 SOTA 的对比说明 WMA teacher 不是 marginal trick,而是结构性改进。
亮点与洞察¶
- 从 linearized analysis 看清 finetuning 的几何本质:把对比 loss 转成 matrix least-squares 后,每种 strategy 的闭式解一目了然,是 finetuning theory 的扎实贡献。
- EMA collapse 问题被严肃讨论:以前自蒸馏文献默认用 EMA 没意识到 finite-horizon 失效;本文明确指出并量化 anchor 失效,是 awareness 上的进步。
- WMA + U-shape kernel 是优雅设计:U-shape Beta(0.5, 0.5) 让"始末双锚",凸 kernel(如 mean)做不到"既保 init 又保 task"的双重要求。
- Bias-free convergence 的数学保证:Theorem 3.4 证明任务子空间内收敛到 minimum-norm 解,这是 static SD 永远做不到的(永远偏 init)。
- Toy + ImageNet + 多 baseline 三层验证:从 controllable toy 到 industrial ImageNet 到多 backbone(Appendix B),实验严密,对 reviewer 几乎无槽点。
- Multi-view distillation 不是堆叠:四视角 loss 跟"保留预训练知识的多重含义"对应,每个 component ablation 都有掉点,证明设计合理。
局限与展望¶
- 理论建立在 linearized image encoder 上:实际 CLIP 是非线性 transformer,闭式解只是 first-order approximation,超过 1-2 epoch 后理论预测精度下降——本文用 toy + 实证补强但严格意义未保证。
- WMA 计算成本略高:要存 teacher 的 running average + kernel weight,相比 EMA 多一倍 weight 计算,对 8B+ 模型可能有内存压力(虽然 TRACER 在 CLIP ViT-L 上验证可行)。
- Beta(0.5, 0.5) 不是搜出来的最优:U-shape kernel 形状是经验选择,其他 endpoint-aware kernel(如 arcsine)的对比在 Appendix 简短讨论但不充分。
- 只在 CLIP 上验证:DINO、BLIP-2、SigLIP 等其他多模态对比模型上是否有效未知。
- ID 性能略输 Model Stock:trade-off 偏 OOD 时 ID 会让位;实际部署需考虑这个 ID-OOD trade-off curve。
相关工作与启发¶
- vs CaRot (Oh et al. 2024):CaRot 也用 SD 但 teacher 是 EMA,本文证明 EMA 会 collapse;TRACER 在 CaRot 基础上换 WMA teacher 是直接升级,OOD +1.53 平均。
- vs LP-FT / FLYP:他们解决"初始化偏移"问题,TRACER 解决"training dynamics 偏移",两者正交可组合。
- vs WiSE-FT / Model Stock:这些是 post-hoc weight averaging,不需要重新训;TRACER 是训练时 in-loop regularization,得到的 weight 不需要 averaging。两条 path 都有效但 TRACER 不需要存两份 weight。
- vs Mean Teacher (Tarvainen & Valpola 2017):经典的 EMA teacher 工作,本文是其 finite-horizon 的"修正"。
- vs L2-SP:L2-SP 在所有维度 blend,本文证明这个 blend 在几何上不合理;TRACER 用 SD 的几何分解替代。
- 启发:对 self-distillation/EMA teacher 类工作都可以 revisit 是否有 collapse 问题,WMA 是个通用 fix;linearized analysis + closed-form 是分析 finetuning 行为的强力工具。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 理论侧 contrastive target matrix + closed-form decomposition 是新工具,方法侧 WMA teacher + bias-free convergence 证明是新贡献。
- 实验充分度: ⭐⭐⭐⭐⭐ Toy 验证理论 + 多 CLIP backbone + 5 OOD benchmark + 14+ baseline + 4 维度 ablation,几乎无空白。
- 写作质量: ⭐⭐⭐⭐⭐ Theory → method → toy → main 的叙述链非常工整,公式严密且 intuition 明确,Figure 2 几何可视化对理论理解帮助大。
- 价值: ⭐⭐⭐⭐⭐ 对 CLIP 微调实践直接可用(+1.5 OOD),且 WMA teacher 思想可推广到其他 SSL/distillation 场景;开源代码降低门槛。