CHIPS: Efficient CLIP Adaptation via Curvature-aware Hybrid Influence-based Data Selection¶
会议: CVPR 2026
arXiv: 2511.18519
代码: 有
领域: 医学图像
关键词: CLIP适配, 数据选择, 曲率感知, 持续预训练, 医学图像
一句话总结¶
提出 CHIPS,一种基于曲率感知混合影响力的数据选择方法,在 CLIP 端点子空间中计算 Newton 风格对齐分数并结合可学习性与领域相关性权重,仅用 30% 数据即可匹配全量数据集持续预训练效果,在 17 个医学基准上达到 SOTA。
研究背景与动机¶
1. 领域现状¶
CLIP 等视觉-语言模型在通用领域展现出强大的零样本识别能力,但在垂直领域(如医学影像、生物学)中性能急剧下降——词汇表、采集协议和标签体系均发生显著偏移。当前适配 CLIP 到垂直领域主要有两种范式:模型中心方法(概率微调、PEFT 变体等修改训练/参数化策略)和数据中心方法(在大规模领域数据上持续预训练 CPT,数据量从百万到数亿级)。
2. 痛点¶
数据中心方法面临严重的数据效率问题:收集、标注和处理大规模领域数据集成本极高,且不加区分地扩大数据量反而可能引入冗余、低效样本而损害学习效果。
3. 核心矛盾¶
规模 vs. 效率的矛盾——有效的 CPT 真的需要极端规模的数据吗?现有数据归因方法(如 TracIn、TRAK)是为单塔模型上的监督分类设计的,直接搬到 CLIP 上存在三个根本性不匹配:
- (A) 双编码器的跨模态曲率:CLIP 双编码器产生非块对角的二阶曲率,块对角代理忽略了这种耦合导致样本排序错误
- (B) InfoNCE 下的非局部梯度:每个样本的梯度依赖于整个负样本集的 softmax 归一化器,使影响力是批/全局相关的而非逐样本可加的
- (C) 端点投影头的主导性:投影头和温度参数驱动相似度分布的早期偏移,全参数影响力计算对 CLIP 来说不必要
4. 要解决什么¶
设计一种 CLIP 专用的数据选择器,在小数据量下实现与全量 CPT 相当甚至更好的领域适配效果,同时保留通用领域能力。
5. 切入角度¶
从数据归因角度出发,将数据选择建模为:选出那些一步更新后能最大化降低目标领域评估损失的样本。关键洞察是只需在 CLIP 的端点子空间(投影头 + 温度)计算这种对齐分数即可。
6. 核心 Idea¶
提出 CHIPS(Curvature-aware Hybrid Influence in Projection Subspace),在 CLIP 端点几何空间中计算曲率感知的 Newton 风格对齐分数,结合 InfoNCE 感知的曲率估计器(JL sketching 加速)和选择感知的领域相关性权重,最终乘积得到每个样本的选择效用分数。
方法详解¶
整体框架¶
CHIPS 想回答一个很实际的问题:要把 CLIP 持续预训练(CPT)到医学领域,到底要不要堆几千万样本?它的答案是给每个候选样本算一个「选不选」的效用分数,只挑分数最高的那一小批拿去训练。这个效用分数写成三个权重的乘积 \(\mathcal{I}_{\text{CHIPS}}(z) = \hat{A}_\alpha(z) \cdot w_L(z) \cdot w_R(z)\):第一项 \(\hat{A}_\alpha(z)\) 衡量「这个样本走一步梯度,能不能把模型推向评估损失下降的方向」,第二项 \(w_L(z)\) 看「这个样本是不是还没被学会、值不值得学」,第三项 \(w_R(z)\) 看「它像不像目标领域的数据」。三者相乘,方向有用 × 值得学 × 领域匹配同时成立才能拿到高分,最后取 top-n 送进 CPT。三个分数都只在 CLIP 的「端点」参数(投影头 + 温度)上算,所以可以算一次缓存下来,换架构、换预训练规模都能复用。下面三个关键设计正好对应这条流水线:设计 1 与设计 2 共同算出对齐分数 \(\hat{A}_\alpha(z)\)(先估曲率矩阵 \(M\)、再做 Newton 风格对齐),设计 3 给出可学习性与领域相关性两个乘性权重,最后相乘取 top-n。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["候选图文对 z<br/>(BIOMEDICA 24M 训练池)"] --> B["端点子空间 ϑ = {W_v, W_t, τ}<br/>只在投影头 + 温度上算梯度"]
subgraph ALIGN["曲率感知对齐分数 Â_α(z)"]
direction TB
C["InfoNCE 感知的曲率估计 + JL sketching<br/>M = (1−α)Φ_pos + αΦ_neg + λI,压到 k 维"] --> D["端点子空间的曲率感知对齐<br/>Â_α = g(z)ᵀ M⁻¹ u:一步更新降评估损失的方向"]
end
B --> ALIGN
B --> E["可学习性与领域相关性权重<br/>w_L·w_R:值得学 × 像目标域"]
ALIGN --> F["选择效用 I_CHIPS(z) = Â_α · w_L · w_R"]
E --> F
F --> G["取 top-n 子集 → CPT(对称 InfoNCE)"]
G --> H["领域适配后的 CLIP"]
关键设计¶
1. 端点子空间的曲率感知对齐:只在投影头上算 Newton 方向,避开全参数二阶代价
把数据选择当成数据归因来做,最干净的标准是 Newton 风格的对齐分数 \(A(z) = g_\vartheta(z)^\top M^{-1} u_\vartheta\)——样本梯度 \(g_\vartheta(z)\) 经曲率矩阵 \(M\) 校正后,和评估损失梯度 \(u_\vartheta\) 的内积越大,说明这一步更新越能把模型推向评估集上更低的损失。难点在于 \(M\) 是 Hessian 的代理,全参数算二阶量对 CLIP 这种双塔大模型根本不现实。CHIPS 的关键观察是:相似度分布的早期偏移主要由端点参数 \(\vartheta = \{W_v, W_t, \tau\}\)(视觉/文本投影头 + 温度)驱动,所以只在这个低维端点子空间上算对齐分数就够了。这不是拍脑袋的近似——Theorem 1 通过局部线性化给出了端点对齐分数与全参数对齐分数之间 Pearson 相关性的下界,实验里两者的 Spearman 相关性实测到 0.83,说明端点排序基本保住了全参数排序的次序,而维度和计算量却大幅缩小。
2. InfoNCE 感知的曲率估计 + JL sketching:把负样本耦合塞回曲率,再压维度
光在端点子空间算还不够,曲率矩阵 \(M\) 怎么估也有坑。对称 InfoNCE 的 softmax 归一化器会把每个正对和一整批负样本耦合在一起,于是真实曲率里带有大量「跨样本」的离对角质量;而 TracIn 这类方法只用正对梯度的对角外积,等于把这块耦合直接扔掉,排序自然就偏了。CHIPS 把曲率拆成正对自曲率 \(\Phi_{\text{pos}}\) 和负对交叉曲率 \(\Phi_{\text{neg}}\),用一个混合系数 \(\alpha\) 把负对那块质量加回来:
再用 Johnson–Lindenstrauss 随机投影把维度压到 \(k\) 维,得到可以快速计算的 sketched 分数 \(\hat{A}_\alpha(z)\)。\(\alpha\) 和 \(k\) 不是随手定的:Theorem 2 把估计误差分解成两块,一块是随 JL 维度 \(k\) 增大而以 \(O(1/k)\) 收缩的投影方差,一块是曲率偏差——\(\alpha > 0\) 恰好补回负对的离对角质量、压低这块偏差。两个旋钮一个管方差一个管偏差,实验把甜点定在 \(\alpha \in [0.6, 0.8]\)。
3. 可学习性与领域相关性权重:在「方向有用」之外再问值不值得学、像不像目标域
对齐分数只回答了「往这个方向走有没有用」,但它分不清两类样本:一类模型早就答对了、再学也榨不出多少信息;另一类是训练池和评估集之间的分布缺口。CHIPS 用两个乘性权重补上。可学习性 \(w_L(z) = (1 - p_{\text{corr}}(z))(1 + \sigma(-m(z)))\) 用 CLIP 对正对的平均正确概率 \(p_{\text{corr}}(z)\) 和最难负样本的 margin \(m(z)\) 来判断——高置信答对的样本 \(p_{\text{corr}}\) 接近 1、第一项趋零被压下去,而 margin 小甚至为负的决策边界样本被抬高,因为它们才是一步更新里最能学到东西的。领域相关性 \(w_R(z) = \sigma((1-\beta)\cos(\hat{x}, \mu_x) + \beta\cos(\hat{y}, \mu_y))\) 则把样本嵌入和评估集两个模态的平均嵌入 \(\mu_x, \mu_y\) 比余弦相似度,sigmoid 把值夹在 \([0.27, 0.73]\),所以它是软重加权而不是硬过滤,再不像也不会被归零,避免选择分布过度偏离目标领域、缓解灾难性遗忘(\(\beta=0.5\) 时目标域增益最大)。三个权重相乘,正好把「方向有用」「值得学」「领域匹配」三件正交的事拧成一个分数。
损失函数 / 训练策略¶
CHIPS 本身是数据选择方法而非训练方法。选出的子集用标准对称 InfoNCE 损失进行 CPT:
- 优化器:AdamW(\(\beta_1=0.9, \beta_2=0.98, \epsilon=10^{-6}\))
- 学习率调度:余弦退火(初始 \(10^{-6}\))
- 批大小:32,768
- 训练轮数:固定 5 个 epoch
- 硬件:8×NVIDIA H200 (141GB)
CHIPS 分数计算一次后可缓存复用于不同架构和预训练规模。
实验关键数据¶
主实验¶
在 BIOMEDICA(24M 样本)上用 MetaCLIP-B16-400M 做 CPT,不同保留比例下的医学任务平均分:
| 方法 | r=10% Medical Avg | r=20% Medical Avg | r=30% Medical Avg | r=10% General CLS |
|---|---|---|---|---|
| Full Dataset | 31.51 | 31.51 | 31.51 | 49.72 |
| Random | 24.78 | 25.00 | 26.28 | 52.21 |
| CLIPScore | 24.16 | 20.01 | 19.01 | 53.39 |
| TracIn | 26.46 | 26.63 | 25.68 | 47.26 |
| TRAK | 25.19 | 24.54 | 23.54 | 48.24 |
| CHIPS | 27.03 | 28.20 | 29.96 | 47.88 |
关键数据:10% 数据的 CHIPS(27.03)超过 50% Random(26.26);30% 的 CHIPS(29.96)达到全量 CPT 的 95.1%;r=30% 时 CHIPS 略超专用医学模型 BMCLIP(29.96 vs 29.86)。
跨架构泛化(10% 保留,CHIPS 分数复用):
| 模型 | Medical CLS | General CLS | General RET |
|---|---|---|---|
| B32-400M Random | 27.15 | 49.31 | 27.33 |
| B32-400M CHIPS | 27.83 | 47.90 | 25.65 |
| L14-400M Random | 29.33 | 57.07 | 33.35 |
| L14-400M CHIPS | 29.73 | 53.65 | 28.17 |
| H14-CC Random | 35.23 | 61.36 | 32.82 |
| H14-CC CHIPS | 35.48 | 58.24 | 32.09 |
在全部 7 种架构/预训练规模设置中,CHIPS 均获最佳 Medical 性能,超 TracIn 0.20-2.65 点。
消融实验¶
在 MetaCLIP-B16-400M 上逐步添加组件:
| 变体 | r=10% Med | r=20% Med | r=30% Med | r=10% Gen CLS |
|---|---|---|---|---|
| Alignment-only | 25.98 | 27.52 | 27.84 | 48.33 |
| Alignment+Margin | 25.95 | 27.92 | 28.50 | 48.41 |
| CHIPS (full) | 27.03 | 28.20 | 29.96 | 47.88 |
三组件乘积组合在所有预算下均最优,r=30% 时比 Alignment+Margin 高 +1.46 点,说明领域相关性在大预算下尤其重要。通用领域 CLS 差距 ≤0.53,RET 差距随 r 增大收窄(0.99→0.37),表明是可控的专业化而非灾难性遗忘。
关键发现¶
- 数据效率极高:10% 数据超越 50% 随机样本,30% 数据达到全量 95% 效果
- 端点子空间代理可靠:Spearman 相关性 0.83;文本投影头最重要(Text-only 保持 99.7%),视觉投影头互补(98.7%)
- 曲率混合 α 的甜点:\(\alpha \in [0.6, 0.8]\) 最优,验证了负对耦合信息对 InfoNCE 曲率的重要性
- 分数可迁移:在 B16-400M 上算一次分数,可直接复用于 B32/L14/H14 和不同预训练规模
- 计算成本与 TRAK 持平(50.95 vs 50.95 ×10^15 FLOPs),比 TracIn 低 3.1%
亮点与洞察¶
- 数据中心视角的 CLIP 适配:首次系统性地将数据选择引入 CLIP CPT,证明"精选少量"可替代"海量堆砌"
- 理论支撑扎实:Theorem 1 证明端点代理与全参数对齐的相关性下界;Theorem 2 给出曲率混合+JL 投影的偏差-方差分解
- 工程友好:分数一次计算可跨架构复用,实际部署中大幅降低迭代成本
- 三因素乘积设计优雅:对齐(方向有用性)× 可学习性(边界样本)× 相关性(领域匹配)三者正交互补
局限与展望¶
- 依赖目标验证分布:需要一个有标签的 \(\mathcal{D}_{\text{eval}}\) 来计算评估梯度 \(u_\vartheta\),在标注稀缺场景下受限
- 仅验证了 CLIP 架构:未扩展到 SigLIP、EVA-CLIP 等其他视觉-语言模型
- 医学领域为主:虽然测了通用域保留,但未在其他垂直领域(遥感、工业检测)验证
- α、β 超参需调:虽然推荐了默认值但不同领域可能需要重新搜索
- 未探索无标签目标信号:作者自己提出可探索无标签或分布偏移鲁棒的目标信号
相关工作与启发¶
- TracIn / TRAK:单塔模型上的数据归因方法,CHIPS 在此基础上引入 CLIP 专用的曲率估计和端点子空间优化
- BIOMEDICA / MedTrinity:大规模医学多模态数据集,CHIPS 在其上验证数据效率
- Johnson-Lindenstrauss 引理:经典降维工具,用于将曲率计算的 \(O(d^2)\) 复杂度降至近线性
- 启发:数据选择方法可以与模型中心方法(如 PEFT)结合使用,形成"精选数据 + 高效微调"的双重效率策略
评分¶
⭐⭐⭐⭐ 理论扎实、实验全面的数据中心 CLIP 适配工作,三组件设计清晰优雅,30% 数据匹配全量 CPT 的结果令人印象深刻,对数据稀缺的垂直领域适配有很强实用价值。