Advancing Compositional Awareness in CLIP with Efficient Fine-Tuning¶
会议: NeurIPS 2025
arXiv: 2505.24424
代码: https://clic-compositional-clip.github.io/
领域: 多模态VLM / CLIP微调
关键词: CLIP组合推理, SugarCrepe++, 图像拼接, 困难负样本, 对比学习
一句话总结¶
提出 CLIC,通过拼接两张图像并基于跨图词汇交换生成 hard negatives,同时创建多个正样本描述,仅微调 CLIP 文本编码器就能同时提升组合推理能力(SugarCrepe++ SOTA)和下游检索性能,打破了之前方法中组合性与检索性不可兼得的困局。
研究背景与动机¶
领域现状:CLIP 等视觉语言模型在零样本分类和检索任务上表现出色,但在组合推理(compositional reasoning)上存在显著缺陷——它们倾向于学习"词袋"表示,无法区分"红衬衫的人骑灰马"和"灰衬衫的人骑红马"。已有多种方法(NegCLIP、DAC、TripletCLIP、SVLC)试图通过引入 hard negatives 来改善组合性。
现有痛点:最近的 SugarCrepe++ 基准揭示了一个令人尴尬的事实——之前声称提升了组合性的方法(如 DAC 在 SugarCrepe 上达到 89.4%),在 SugarCrepe++ 上的表现甚至不如预训练 CLIP(DAC 降至 53.7%)。这意味着这些方法只是学会了检测词汇层面的变化(lexical sensitivity),而没有真正理解语义差异。此外,提升组合性的方法通常会降低检索性能,尽管直觉上组合理解力增强应该有助于检索。
核心矛盾:组合性提升方法过度针对特定基准的 hard negative 模式(如固定交换颜色/动作),导致对新基准过拟合而对真正的语义理解提升有限。同时,强化 hard negative 训练往往破坏了 CLIP 原有的通用表示能力。
本文目标 如何在提升 CLIP 组合推理能力的同时保持甚至增强其检索性能?
切入角度:不是单独为每张图像生成 hard negative,而是通过拼接两张图像创造一个组合场景,然后通过跨图词汇交换自然地生成 hard negatives,同时利用多句描述创建多个正样本增强语义不变性。
核心 idea:图像拼接 + 跨图词汇交换 = 低成本、高多样性的组合性训练数据。
方法详解¶
整体框架¶
CLIC 在每个训练迭代中采样一批图像-文本对 \(\{x_i, y_i\}\),为每张图像随机选择另一张方向一致的图像,将两张图像拼接成新图像 \(u_i\),并基于两张图像的描述构造 4 个正样本和 1 个负样本。整个训练仅微调文本编码器,视觉编码器冻结,且每隔一步使用标准 CLIP 训练防止偏离预训练表示。
关键设计¶
-
图像拼接与多正样本生成:
- 功能:创造组合场景并提供丰富的正样本描述
- 核心思路:拼接图像 \(u_i = \text{RandomConcat}(x_i, x_{i+m})\),然后构造 4 个正样本:\(p_1\) = 两张图首句按序拼接;\(p_2\) = 首句顺序交换(教模型对语序不变性);\(p_3, p_4\) = 从各图描述中随机选取其他句子拼接(增加描述多样性)。图像拼接使得组合数量随数据集大小平方增长,且正样本天然覆盖了同一图像的多角度描述
- 设计动机:单图 hard negative 的组合空间有限且容易过拟合特定基准;图像拼接本身就是一种组合操作,能自然地产生需要组合理解的场景
-
跨图词汇交换生成 Hard Negatives:
- 功能:低成本生成语义有意义的困难负样本
- 核心思路:用 spaCy 解析 \(p_1\) 中两个句子的词汇类别,随机选择两句共有的某个词类(名词/动词/形容词等),从每句各选一个该类词汇进行交换,生成负样本 \(n\)。交换后的描述不再正确描述拼接图像(除非恰好交换的词同义)。关键是不限定特定词类,避免过拟合某类基准测试
- 设计动机:相比 DAC 需 LLM 生成、TripletCLIP 需额外生成合成图像,这种方法几乎零额外计算成本且不针对特定基准
-
三重损失函数设计:
- 功能:分别优化对比学习、hard negative 区分和语义不变性
- 核心思路:总损失 \(\mathcal{L} = \lambda_{Cont}\mathcal{L}_{Cont} + \lambda_{S\text{-}Neg}\mathcal{L}_{S\text{-}Neg} + \lambda_{Uni}\mathcal{L}_{Uni}\)。对比损失 \(\mathcal{L}_{Cont}\) 扩展到 4 个正样本;\(\mathcal{L}_{S\text{-}Neg}\) 是每个正样本与负样本的二元对比(确保 hard negative 始终影响训练);\(\mathcal{L}_{Uni}\) 最小化 \(p_1\) 和 \(p_2\)(首句顺序交换)的文本嵌入距离,教模型对语序无关但语义相同的文本保持一致
- 设计动机:标准对比损失中 hard negative 可能被 batch 内其他容易区分的样本"掩盖",单独的 S-Neg 损失保证 hard negative 始终参与优化
训练策略¶
仅微调文本编码器,224x224 分辨率,每隔一步切换到标准单图 CLIP 训练以防偏离。使用 ~1M 样本子集(来自 PixelProse-RedCaps/CC12M 或 CogVLM 重标注的 Laion),训练数据独立于 MS-COCO(保证零样本评估的公平性)。
实验关键数据¶
主实验(ViT-B/32, SugarCrepe++ ITT)¶
| 方法 | SC++ Replace ITT | SC++ Swap ITT | WG Image | COCO I→T | COCO T→I |
|---|---|---|---|---|---|
| CLIP | 69.5 | 45.7 | 11.0 | 74.1 | 54.6 |
| NegCLIP | 70.5 | 56.4 | 11.0 | 83.6* | 72.2* |
| DAC-LLM | 53.7 | 32.2 | 10.5 | 63.3 | 58.1 |
| TripletCLIP | 73.5 | 43.4 | 11.2 | 72.3 | 56.8 |
| CLIC-RedCaps | 76.0 | 61.5 | 12.2 | 76.0 | 59.5 |
| CLIC-CC12M | 74.4 | 60.6 | 11.8 | 76.9 | 60.8 |
跨架构泛化(ViT-L/14, CLIPS)¶
| 方法 | SC++ Replace ITT | COCO I→T | COCO T→I |
|---|---|---|---|
| CLIPS | 75.5 | 87.3 | 69.9 |
| CLIPS + CLIC | 84.5 (+9%) | 88.6 (+1.3%) | 72.1 (+2.2%) |
关键发现¶
- CLIC 是唯一在 SugarCrepe++ 和检索任务上同时取得一致提升的方法,打破了组合性与检索性的 trade-off
- DAC 在 SugarCrepe 上表现优异(89.4% Replace ITT)但在 SugarCrepe++ 上暴跌至 53.7%,揭示它只学到了词汇级别的敏感性而非真正的语义理解
- CLIC 在不同数据源(LAION、CC12M、RedCaps、COCO)上都能稳定提升,证明方法不依赖特定训练数据
- 将 CLIC 视觉编码器接入 LLaVA-1.5-7b 后,VQAScore 提升但不影响 QA/captioning 等下游任务能力
亮点与洞察¶
- 图像拼接是一个被低估的数据增强策略:简单地拼接两张图就创造了一个需要组合理解的新场景,组合数平方增长,成本几乎为零。这个思路可以迁移到其他需要组合推理的任务
- 跨图词汇交换 vs LLM 生成 hard negatives:前者零额外成本且不针对特定基准,后者昂贵且容易过拟合。CLIC 证明简单方法在正确框架下优于复杂方法
- SugarCrepe++ 暴露了"伪组合性":之前方法在 SugarCrepe 上的高分是虚假的——它们只是学会了检测词汇变化而非理解语义。这对该领域的评估标准提出了重要质疑
局限与展望¶
- 仅对文本编码器微调,未探索联合微调或适配器方案的效果
- 词汇交换生成的 hard negative 有一定概率交换语义相同的词(如同义词),这类样本会引入噪声
- 图像拼接改变了图像的宽高比和分辨率,在高分辨率模型上可能引入伪影
- WinoGround 上的提升幅度有限(11.0→12.2),表明对需要精细空间推理的场景仍有改善空间
相关工作与启发¶
- vs NegCLIP: NegCLIP 也用词汇交换但只在单张图像描述内交换特定词类(形容词/名词等),CLIC 的跨图交换更自然且不限定词类
- vs DAC: DAC 使用 LLM/SAM 生成高质量描述和负样本,计算成本高且在 SugarCrepe++ 上失败,证明复杂不等于有效
- vs TripletCLIP: TripletCLIP 额外用扩散模型生成合成图像,成本高且零样本分类性能大幅退化(ImageNet 降 8.5%)
评分¶
- 新颖性: ⭐⭐⭐⭐ 图像拼接+跨图交换的数据构造方案简洁高效,思路新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 跨架构、跨数据源、跨基准的全面验证,包括 LLaVA 集成实验
- 写作质量: ⭐⭐⭐⭐ 论文清晰且自洽,对比实验公平
- 价值: ⭐⭐⭐⭐ 同时解决组合性和检索性的 trade-off,对 CLIP 微调实践有重要指导意义