Advancing Compositional Awareness in CLIP with Efficient Fine-Tuning¶

会议: NeurIPS 2025
arXiv: 2505.24424
代码: https://clic-compositional-clip.github.io/
领域: 多模态VLM / CLIP微调
关键词: CLIP组合推理, SugarCrepe++, 图像拼接, 困难负样本, 对比学习

一句话总结¶

提出 CLIC，通过拼接两张图像并基于跨图词汇交换生成 hard negatives，同时创建多个正样本描述，仅微调 CLIP 文本编码器就能同时提升组合推理能力（SugarCrepe++ SOTA）和下游检索性能，打破了之前方法中组合性与检索性不可兼得的困局。

研究背景与动机¶

领域现状：CLIP 等视觉语言模型在零样本分类和检索任务上表现出色，但在组合推理（compositional reasoning）上存在显著缺陷——它们倾向于学习"词袋"表示，无法区分"红衬衫的人骑灰马"和"灰衬衫的人骑红马"。已有多种方法（NegCLIP、DAC、TripletCLIP、SVLC）试图通过引入 hard negatives 来改善组合性。

现有痛点：最近的 SugarCrepe++ 基准揭示了一个令人尴尬的事实——之前声称提升了组合性的方法（如 DAC 在 SugarCrepe 上达到 89.4%），在 SugarCrepe++ 上的表现甚至不如预训练 CLIP（DAC 降至 53.7%）。这意味着这些方法只是学会了检测词汇层面的变化（lexical sensitivity），而没有真正理解语义差异。此外，提升组合性的方法通常会降低检索性能，尽管直觉上组合理解力增强应该有助于检索。

核心矛盾：组合性提升方法过度针对特定基准的 hard negative 模式（如固定交换颜色/动作），导致对新基准过拟合而对真正的语义理解提升有限。同时，强化 hard negative 训练往往破坏了 CLIP 原有的通用表示能力。

本文目标 如何在提升 CLIP 组合推理能力的同时保持甚至增强其检索性能？

切入角度：不是单独为每张图像生成 hard negative，而是通过拼接两张图像创造一个组合场景，然后通过跨图词汇交换自然地生成 hard negatives，同时利用多句描述创建多个正样本增强语义不变性。

核心 idea：图像拼接 + 跨图词汇交换 = 低成本、高多样性的组合性训练数据。

方法详解¶

整体框架¶

CLIC 在每个训练迭代中采样一批图像-文本对 \(\{x_i, y_i\}\)，为每张图像随机选择另一张方向一致的图像，将两张图像拼接成新图像 \(u_i\)，并基于两张图像的描述构造 4 个正样本和 1 个负样本。整个训练仅微调文本编码器，视觉编码器冻结，且每隔一步使用标准 CLIP 训练防止偏离预训练表示。

关键设计¶

图像拼接与多正样本生成:
- 功能：创造组合场景并提供丰富的正样本描述
- 核心思路：拼接图像 \(u_i = \text{RandomConcat}(x_i, x_{i+m})\)，然后构造 4 个正样本：\(p_1\) = 两张图首句按序拼接；\(p_2\) = 首句顺序交换（教模型对语序不变性）；\(p_3, p_4\) = 从各图描述中随机选取其他句子拼接（增加描述多样性）。图像拼接使得组合数量随数据集大小平方增长，且正样本天然覆盖了同一图像的多角度描述
- 设计动机：单图 hard negative 的组合空间有限且容易过拟合特定基准；图像拼接本身就是一种组合操作，能自然地产生需要组合理解的场景
跨图词汇交换生成 Hard Negatives:
- 功能：低成本生成语义有意义的困难负样本
- 核心思路：用 spaCy 解析 \(p_1\) 中两个句子的词汇类别，随机选择两句共有的某个词类（名词/动词/形容词等），从每句各选一个该类词汇进行交换，生成负样本 \(n\)。交换后的描述不再正确描述拼接图像（除非恰好交换的词同义）。关键是不限定特定词类，避免过拟合某类基准测试
- 设计动机：相比 DAC 需 LLM 生成、TripletCLIP 需额外生成合成图像，这种方法几乎零额外计算成本且不针对特定基准
三重损失函数设计:
- 功能：分别优化对比学习、hard negative 区分和语义不变性
- 核心思路：总损失 \(\mathcal{L} = \lambda_{Cont}\mathcal{L}_{Cont} + \lambda_{S\text{-}Neg}\mathcal{L}_{S\text{-}Neg} + \lambda_{Uni}\mathcal{L}_{Uni}\)。对比损失 \(\mathcal{L}_{Cont}\) 扩展到 4 个正样本；\(\mathcal{L}_{S\text{-}Neg}\) 是每个正样本与负样本的二元对比（确保 hard negative 始终影响训练）；\(\mathcal{L}_{Uni}\) 最小化 \(p_1\) 和 \(p_2\)（首句顺序交换）的文本嵌入距离，教模型对语序无关但语义相同的文本保持一致
- 设计动机：标准对比损失中 hard negative 可能被 batch 内其他容易区分的样本"掩盖"，单独的 S-Neg 损失保证 hard negative 始终参与优化

训练策略¶

仅微调文本编码器，224x224 分辨率，每隔一步切换到标准单图 CLIP 训练以防偏离。使用 ~1M 样本子集（来自 PixelProse-RedCaps/CC12M 或 CogVLM 重标注的 Laion），训练数据独立于 MS-COCO（保证零样本评估的公平性）。

实验关键数据¶

主实验（ViT-B/32, SugarCrepe++ ITT）¶

方法	SC++ Replace ITT	SC++ Swap ITT	WG Image	COCO I→T	COCO T→I
CLIP	69.5	45.7	11.0	74.1	54.6
NegCLIP	70.5	56.4	11.0	83.6*	72.2*
DAC-LLM	53.7	32.2	10.5	63.3	58.1
TripletCLIP	73.5	43.4	11.2	72.3	56.8
CLIC-RedCaps	76.0	61.5	12.2	76.0	59.5
CLIC-CC12M	74.4	60.6	11.8	76.9	60.8

跨架构泛化（ViT-L/14, CLIPS）¶

方法	SC++ Replace ITT	COCO I→T	COCO T→I
CLIPS	75.5	87.3	69.9
CLIPS + CLIC	84.5 (+9%)	88.6 (+1.3%)	72.1 (+2.2%)

关键发现¶

CLIC 是唯一在 SugarCrepe++ 和检索任务上同时取得一致提升的方法，打破了组合性与检索性的 trade-off
DAC 在 SugarCrepe 上表现优异（89.4% Replace ITT）但在 SugarCrepe++ 上暴跌至 53.7%，揭示它只学到了词汇级别的敏感性而非真正的语义理解
CLIC 在不同数据源（LAION、CC12M、RedCaps、COCO）上都能稳定提升，证明方法不依赖特定训练数据
将 CLIC 视觉编码器接入 LLaVA-1.5-7b 后，VQAScore 提升但不影响 QA/captioning 等下游任务能力

亮点与洞察¶

图像拼接是一个被低估的数据增强策略：简单地拼接两张图就创造了一个需要组合理解的新场景，组合数平方增长，成本几乎为零。这个思路可以迁移到其他需要组合推理的任务
跨图词汇交换 vs LLM 生成 hard negatives：前者零额外成本且不针对特定基准，后者昂贵且容易过拟合。CLIC 证明简单方法在正确框架下优于复杂方法
SugarCrepe++ 暴露了"伪组合性"：之前方法在 SugarCrepe 上的高分是虚假的——它们只是学会了检测词汇变化而非理解语义。这对该领域的评估标准提出了重要质疑

局限与展望¶

仅对文本编码器微调，未探索联合微调或适配器方案的效果
词汇交换生成的 hard negative 有一定概率交换语义相同的词（如同义词），这类样本会引入噪声
图像拼接改变了图像的宽高比和分辨率，在高分辨率模型上可能引入伪影
WinoGround 上的提升幅度有限（11.0→12.2），表明对需要精细空间推理的场景仍有改善空间

评分¶

新颖性: ⭐⭐⭐⭐ 图像拼接+跨图交换的数据构造方案简洁高效，思路新颖
实验充分度: ⭐⭐⭐⭐⭐ 跨架构、跨数据源、跨基准的全面验证，包括 LLaVA 集成实验
写作质量: ⭐⭐⭐⭐ 论文清晰且自洽，对比实验公平
价值: ⭐⭐⭐⭐ 同时解决组合性和检索性的 trade-off，对 CLIP 微调实践有重要指导意义