DeBias-CLIP: CLIP Is Shortsighted — Paying Attention Beyond the First Sentence¶

会议: CVPR 2026
arXiv: 2602.22419
代码: https://github.com/TRAILab/DeBias-CLIP.git
领域: 图像分割
关键词: CLIP, 长文本检索, 注意力偏向, 数据增强, 位置编码拉伸

一句话总结¶

发现CLIP和Long-CLIP模型存在严重的early-token偏向和首句摘要shortcut问题，提出DeBias-CLIP通过去除摘要句、句子子采样和前缀token填充三种简单增强策略，不增加任何额外参数即实现了多个长文本检索基准的SOTA。

研究背景与动机¶

领域现状：CLIP通过图文对比学习构建多模态联合表示空间，被广泛应用于零样本分类、多模态检索、文本到图像生成等。Long-CLIP等工作通过拉伸位置编码和在长caption数据上微调来扩展CLIP的文本理解长度。

现有痛点：CLIP的预训练数据以短caption为主，导致模型对早期token存在严重偏向。更关键的是，现有长caption数据集（如ShareGPT4V）几乎都遵循"首句摘要+详细描述"的格式，首句包含了caption的主要信息，与短caption高度相似。

核心矛盾：当在这类长caption上训练Long-CLIP时，模型可以通过只关注首句摘要来最小化对比损失——这形成了一个shortcut，使模型无需真正扩展有效上下文窗口就能取得较好的训练loss，但删除或移动首句后检索性能急剧下降（-17.1%和-9.7%）。

本文目标 (1) CLIP文本编码器的early-token偏向如何定量分析？(2) Long-CLIP训练框架中首句摘要shortcut如何消除？(3) 如何在不增加额外参数的情况下改善长文本检索？

切入角度：作者从数据增强出发，观察到首句摘要是训练时的shortcut——既然首句摘要是问题源头，就在训练时直接去掉它，同时通过句子采样和前缀padding来分散注意力。

核心 idea：通过去除训练caption中的摘要首句、随机子采样其余句子并添加前缀padding来打破CLIP的早期token偏向shortcut。

方法详解¶

整体框架¶

DeBias-CLIP沿用Long-CLIP的双caption训练框架：输入一张图片，同时准备两个版本的caption——一个长caption \(C^{\ell}\)（完整文本）和一个短caption \(C^{s}\)（增强后的子集），分别计算对比损失后加权求和。核心区别在于短caption的构造方式。

关键设计¶

去除摘要句（Replacing the Summary Sentence）:
- 功能：将短caption定义为长caption去掉首句后的内容 \(C^{\text{no\_sum}} = [s_2, \dots, s_k]\)
- 核心思路：Long-CLIP用首句作为短caption以保持短文本性能，但这恰好为early-token偏向提供了shortcut。DeBias-CLIP反其道而行之，去掉首句来迫使模型关注caption深处的细粒度描述
- 设计动机：实验验证Long-CLIP在DOCCI上，仅使用首句摘要时正样本相似度（0.320）反而高于使用完整长caption（0.308），说明模型确实依赖首句而忽略后续内容
句子子采样（Sentence Sampling）:
- 功能：从去除首句后的caption中随机采样若干句子构成新的短caption \(C^{\text{samp}} = [s_4, s_2]\)
- 核心思路：采样数量 \(n_{\text{sampled}} \sim \mathcal{U}\{1, 2, \dots, n_{\text{sents}}-1\}\) 从均匀分布中随机选择，不维护句子原始顺序，引入长度和内容的多样性
- 设计动机：增大短caption与长caption的差异性，使模型必须对文本各位置的细节保持敏感
前缀Token填充（Token Padding）:
- 功能：将部分后续padding token移动到caption前面作为前缀padding \(T^s_{\text{ours}} = [\mathtt{SOT}, \mathtt{PAD}_{\text{pre}}, s_4, s_2, \mathtt{EOT}, \mathtt{PAD}_{\text{post}}]\)
- 核心思路：从原有的post-padding中随机抽取 \(n_{\text{pre}} \sim \mathcal{U}\{0, 1, \dots, n_{\text{post}}\}\) 个token作为前缀padding，不截断任何文本token
- 设计动机：解决两个问题——(1) 位置编码训练不均匀（长caption偏向早期位置）；(2) 采样后的短caption比首句短，导致pretrained模型的短文本性能退化

损失函数 / 训练策略¶

最终损失为双caption对比损失的加权和：\(\mathcal{L} = \lambda^s \mathcal{L}^s + (1-\lambda^s) \mathcal{L}^{\ell}\)，其中 \(\mathcal{L}^s\) 使用PCA近似的图像特征与增强后短caption的对比损失。沿用Long-CLIP的位置编码拉伸方案（冻结前20个位置，拉伸因子4），在ShareGPT4V上训练3个epoch，batch size 256，4块A100。

实验关键数据¶

主实验¶

数据集	指标	DeBias-CLIP (B/16)	SmartCLIP	Long-CLIP	CLIP
Urban1k	T2I Top-1	93.0	87.4	79.5	53.4
DCI	T2I Top-1	67.6	64.0	57.1	42.9
Long-DCI	T2I Top-1	57.4	52.8	47.0	32.7
DOCCI	T2I Top-1	80.0	78.0	71.4	57.1
COCO	T2I Top-1	43.0	42.4	40.4	32.7
Flickr30k	I2T Top-1	57.0	55.6	46.8	44.1

消融实验¶

配置	Urban1k T2I	DOCCI T2I	COCO T2I	说明
Long-CLIP baseline	79.5	71.4	40.4	原始方法
+ Remove summary	88.4	77.2	41.6	去除首句，最大贡献
+ Sentence sampling	89.8	77.5	41.2	加句子采样
+ Token padding (Full)	93.0	80.0	43.0	完整模型

关键发现¶

去除摘要句是最关键的改进点，单独贡献了Urban1k上+8.9%的提升
移动首句后DeBias-CLIP仅掉3.5%，而Long-CLIP掉9.7%，鲁棒性大幅提升
方法泛化到SigLIP、SigLIP2等不同预训练模型，均有一致改善
注意力权重分析显示DeBias-CLIP在文本token位置上分布更均匀

亮点与洞察¶

极其简洁的方法设计：不增加任何可训练参数，仅通过训练时的文本增强策略即达到SOTA，是Long-CLIP的直接drop-in替代
首句摘要偏向的发现：揭示了长caption数据集的结构性问题，对数据集构建有指导意义
可迁移的增强策略：前缀padding和句子采样的思路可以应用于任何基于长文本训练的对比学习模型

局限与展望¶

SigLIP和SigLIP2上的位置敏感性仍然较大（Move场景掉6%+），预训练偏向更根深蒂固
未探索对VLM或扩散模型下游任务的影响
短文本和长文本性能之间仍存在trade-off

评分¶

新颖性: ⭐⭐⭐⭐ 观察新颖且深刻，方法是直觉的数据增强
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多模型、丰富消融和分析
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，实验驱动的storytelling
价值: ⭐⭐⭐⭐ 对CLIP长文本理解领域有实际改进

title: "DeBias-CLIP: CLIP Is Shortsighted — Paying Attention Beyond the First Sentence" description: "发现CLIP模型对长文本caption的首句摘要存在注意力偏向，通过去除摘要句、句子采样和token填充三种简单增强策略，实现SOTA长文本检索" tags: ["CLIP", "长文本检索", "注意力偏向", "数据增强", "视觉语言模型"]

DeBias-CLIP: CLIP Is Shortsighted — Paying Attention Beyond the First Sentence¶

会议: CVPR 2026
arXiv: 2602.22419
代码: https://github.com/TRAILab/DeBias-CLIP.git
领域: 多模态VLM
关键词: CLIP, 长文本检索, 注意力偏向, 首句偏差, 数据增强

一句话总结¶

发现 CLIP 模型在长文本场景中严重偏向于编码首句摘要和早期 token（"近视"行为），通过三种零参数增量的训练增强策略——去除摘要句、句子随机采样、token 前缀填充——实现了全方位 SOTA 的长文本检索性能，同时改善了短文本检索。

研究背景与动机¶

领域现状：CLIP 模型通过图文对比学习获得强大的跨模态表征，广泛用于零样本分类、多模态检索和文生图扩散模型。但原始 CLIP 主要在短 caption 数据上训练，token 限制仅 77 个（约 3-4 句话），限制了对长文本的理解。Long-CLIP 通过拉伸位置编码到 248 token 并微调来缓解这一问题。

现有痛点：作者发现了一个关键但被忽视的偏差——无论是人类还是 LLM 生成的长 caption，都遵循"首句为摘要 + 后续为细节"的结构。这一结构在训练时充当捷径（shortcut），模型的注意力集中在首句和早期 token 上，后续内容几乎被忽略。

核心矛盾：Long-CLIP 等方法虽然扩展了 context 长度，但由于预训练 CLIP 本身的早期 token 偏向（early-token bias），扩展后的模型仍然只"看"前几个 token。实验证实：移除首句后 Long-CLIP 的 DOCCI 检索下降 17.1%，交换首句和第四句下降 9.7%。

本文目标 消除 CLIP 文本编码器的首句/早期 token 偏向，让模型真正利用长 caption 中的全部信息。

切入角度：既然偏差来自数据结构（首句摘要的捷径），那么通过训练时的数据增强就能消除，无需新架构或额外参数。

核心 idea：去掉训练 caption 的首句摘要，用句子采样和 token 填充把监督信号均匀分布到所有 token 位置。

方法详解¶

整体框架¶

DeBias-CLIP 沿用 Long-CLIP 的双对比损失框架：一个长 caption 损失 \(\mathcal{L}^\ell\) 对齐完整长文本与图像，一个短 caption 损失 \(\mathcal{L}^s\) 对齐采样子集与图像。关键区别在于短 caption 的构造方式：Long-CLIP 用首句摘要作为短 caption，DeBias-CLIP 用去除首句后的随机采样句子。

关键设计¶

去除摘要句（Replacing the Summary Sentence）:
- 功能：训练时将短 caption 定义为去除首句后的剩余内容 \(C^{\mathrm{no\_sum}} = [s_2, \ldots, s_k]\)
- 核心思路：Long-CLIP 用首句 \(s_1\) 作为短 caption 来保持短文本性能，但这恰好强化了模型对首句的依赖。作者发现 Long-CLIP 在 DOCCI 上首句相似度（\(\overline{\text{sim}}(u^s, v) = 0.320\)）高于完整 caption（\(0.308\)），证实首句是对比损失的捷径
- 设计动机：去除摘要句迫使模型关注后续细节句中的信息，打破首句捷径
句子随机采样（Sentence Sampling）:
- 功能：从 \(C^{\mathrm{no\_sum}}\) 中随机无放回采样 \(n_{\mathrm{sampled}} = \mathcal{U}\{1, 2, \ldots, n_{\mathrm{sents}}-1\}\) 个句子，不保持原始顺序
- 核心思路：生成长度变化丰富的子 caption \(C^{\mathrm{samp}} = [s_4, s_2]\)，每次训练迭代让模型看到不同的句子组合
- 设计动机：增大短 caption 和长 caption 之间的差异，鼓励模型对文本和图像中的细节更敏感，同时以极低成本引入变化
Token 前缀填充（Token Padding）:
- 功能：将 token 序列末尾的 padding token 部分移到开头（SOT 之后），推迟有信息 token 的起始位置
- 核心思路：随机采样 \(n_{\mathrm{pre}} = \mathcal{U}\{0, 1, \ldots, n_{\mathrm{post}}\}\) 个填充 token 前置。最终 token 序列为 \(T^s_{\mathrm{ours}} = [\mathtt{SOT}, \mathtt{PAD}_{\mathrm{pre}}, \mathtt{s}_4, \mathtt{s}_2, \mathtt{EOT}, \mathtt{PAD}_{\mathrm{post}}]\)
- 设计动机：光靠句子采样可能导致位置编码训练不均匀（因为采样后的短 caption 偏向前几个位置），前缀填充强制训练后续位置的位置编码，同时保持短文本性能

损失函数 / 训练策略¶

加权双对比损失：\(\mathcal{L} = \lambda^s \mathcal{L}^s + (1 - \lambda^s) \mathcal{L}^\ell\)。短 caption 损失用 PCA 近似的图像特征（继承自 Long-CLIP），长 caption 损失用原始图像特征。在 ShareGPT4V 上训练 3 个 epoch，batch size 256，4× A100。

实验关键数据¶

主实验（长文本检索 Top-1）¶

方法	Urban1k T2I/I2T	DCI T2I/I2T	Long-DCI T2I/I2T	DOCCI T2I/I2T
CLIP (ViT-B)	53.4/67.5	42.9/44.1	32.7/35.9	57.1/60.6
Long-CLIP	79.5/78.9	57.1/51.6	47.0/41.1	71.4/63.1
SmartCLIP	87.4/90.0	64.0/64.9	52.8/53.4	78.0/77.4
DeBias-CLIP	93.0/93.1	67.6/68.5	57.4/57.8	80.0/79.7

消融实验（ViT-B/16, DOCCI T2I）¶

配置	DOCCI T2I	Δ vs Long-CLIP
Long-CLIP baseline	71.4	—
+ 去除首句	76.8	+5.4
+ 去除首句 + 句子采样	77.5	+6.1
+ 去除首句 + 句子采样 + 填充	80.0	+8.6

关键发现¶

去除首句摘要是最关键的改进（+5.4%），证实了首句偏向是核心瓶颈
三种增强策略累加效果显著，最终在几乎所有长/短文本检索数据集上达到 SOTA
模型对句子排列变换的鲁棒性大幅提升：交换句子后的性能下降从 Long-CLIP 的 -9.7% 缩小到 -3.5%
方法可推广到不同预训练 CLIP 变体（OpenAI CLIP、OpenCLIP、SigLIP、SigLIP2），均有一致改进

亮点与洞察¶

诊断问题比解决问题更精彩——系统性地揭示了 CLIP 的"近视"行为（early-token bias + summary sentence shortcut），这一发现本身就很有价值。方法论值得借鉴：通过 padding 实验、句子交换实验和注意力权重分析来定量刻画偏差
零额外参数的解决方案极其优雅——仅靠训练时的数据采样策略就实现了 SOTA，体现了"数据比模型更重要"的洞察。这一思路可迁移到任何存在数据结构化偏差的对比学习场景
注意力权重分析显示 DeBias-CLIP 的注意力分布更加平坦，说明模型真正学会了利用长文本中的深层信息

局限与展望¶

SigLIP/SigLIP2 预训练变体在句子排列后仍有较大性能下降（-6.1%/-6.5%），说明残留的位置敏感性来自预训练，微调难以完全消除
假设了句子之间语义独立，实际长 caption 中句子之间存在指代和因果关系，打乱顺序可能丢失这些信息
训练数据仅限 ShareGPT4V（1.2M 图像），在更大规模或不同领域的数据上效果待验证
未探索对下游生成任务（如文生图）的影响

评分¶

新颖性: ⭐⭐⭐⭐ 问题诊断非常精彩，解决方案虽简单但切中要害
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多模型、多维度分析极为充分
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，从诊断到解决层层递进
价值: ⭐⭐⭐⭐ 对 CLIP 生态的理解和改进有实际影响

DeBias-CLIP: CLIP Is Shortsighted — Paying Attention Beyond the First Sentence¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

DeBias-CLIP: CLIP Is Shortsighted — Paying Attention Beyond the First Sentence¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（长文本检索 Top-1）¶

消融实验（ViT-B/16, DOCCI T2I）¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

DeBias-CLIP: CLIP Is Shortsighted — Paying Attention Beyond the First Sentence¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

DeBias-CLIP: CLIP Is Shortsighted — Paying Attention Beyond the First Sentence¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（长文本检索 Top-1）¶

消融实验（ViT-B/16, DOCCI T2I）¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶