Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction¶
会议: CVPR 2026
arXiv: 2512.04309
代码: 待确认
领域: 多模态VLM
关键词: 图像描述, 纯文本训练, 检索增强, 模态差距修正, CLIP
一句话总结¶
提出TOMCap——一种纯文本训练的图像描述方法,通过检索增强+模态差距修正+LoRA微调,在训练时只用文本而推理时处理图像,超越了已有的无训练和纯文本方法。
研究背景与动机¶
领域现状:图像描述通常依赖大规模人工标注的图像-文本对进行监督训练。近年来出现了两类低资源方法:无训练方法(如ZeroCap)利用预训练模型零样本推理;纯文本方法仅用文本语料训练后在推理时切换到图像输入。
现有痛点:无训练方法容易产生幻觉,纯文本方法受限于CLIP模态差距——图像嵌入和文本嵌入在同一空间中的分布不完全对齐,导致训练时用文本特征、推理时用图像特征会产生偏差。
核心矛盾:纯文本训练的核心假设是文本嵌入可以替代图像嵌入,但CLIP的模态差距使这一假设不完全成立。现有方法只用高斯噪声注入来弥补差距,效果有限。
本文目标:整合检索增强、模态差距修正和latent表示解码三种策略,构建更强的纯文本训练框架。
切入角度:不仅修正均值,还对齐标准差来缩小模态差距;同时结合检索相似描述作为prompt来引导生成。
核心 idea:联合使用检索增强prompt构建、均值-标准差对齐的模态差距修正、和交叉注意力latent引导,实现高质量纯文本训练的图像描述。
方法详解¶
整体框架¶
训练时:文本描述经CLIP文本编码器得到嵌入→模态差距修正→检索相似描述构建prompt→GPT2解码器(带交叉注意力和LoRA)训练。推理时:图像经CLIP图像编码器→检索→prompt+交叉注意力→生成描述。
关键设计¶
-
模态差距修正 (Modality Gap Correction):
- 功能:缩小CLIP图像和文本嵌入的分布差异
- 核心思路:在每个维度上做标准化对齐: \(e_d^{T'_n} = (e_d^{T_n} - \mu_d^T) \times \frac{\sigma_d^I}{\sigma_d^T} + \mu_d^I\),不仅减去均值差异(如之前工作),还对齐标准差
- 设计动机:仅对齐均值忽略了分布形状差异,导致修正后的文本嵌入范围与图像嵌入不匹配。对齐标准差能进一步缩小模态差距半径
-
检索增强 (Retrieval Augmentation):
- 功能:检索语义相似的描述作为上下文prompt
- 核心思路:用SigLIP2编码数据库中约16M描述,对输入嵌入做最近邻检索,取top-K构建prompt "Similar images have the following captions: {c1}...{ck}. Write a caption:"
- 设计动机:检索的相似描述提供风格和语义上的参考,帮助模型捕获与输入图像相关的模式
-
交叉注意力 + LoRA微调:
- 功能:在GPT2各层加入交叉注意力层处理修正后的CLIP嵌入,同时用LoRA微调attention层
- 核心思路:交叉注意力层以修正后的CLIP嵌入(输入+K个检索结果)为key/value,GPT2的隐藏状态为query。LoRA (rank=32) 仅微调注意力投影矩阵
- 设计动机:交叉注意力提供latent级别的视觉引导;LoRA避免全参数微调导致的灾难性遗忘
-
训练目标设计:
- 功能:用检索到的最相似描述(而非原始ground truth)作为训练目标
- 核心思路:选择数据库中与输入最相似的描述作为teacher forcing的目标
- 设计动机:这鼓励模型学习"相似嵌入产生相同描述"的映射,提升泛化能力
损失函数 / 训练策略¶
标准交叉熵损失预测检索出的最相似描述的token序列。冻结CLIP和GPT2主干参数,仅训练交叉注意力层和LoRA参数。在NVIDIA RTX 6000上训练约6小时。
实验关键数据¶
主实验 (MSCOCO Karpathy test)¶
| 方法类别 | 方法名 | B@4 | METEOR | CIDEr |
|---|---|---|---|---|
| Training-free | LMCap | 19.9 | 22.0 | 75.9 |
| Text-only | CapDec | 26.4 | 25.1 | 91.8 |
| Text-only | ViECap | 27.2 | 24.8 | 92.9 |
| Text-only | EntroCap | 27.6 | 25.3 | 94.3 |
| Text-only | TOMCap (ours) | 28.8 | 25.5 | 97.8 |
NoCaps验证集 (CIDEr)¶
| 方法 | In-domain | Near-domain | Out-domain | Overall |
|---|---|---|---|---|
| ViECap | 61.1 | 64.3 | 65.0 | 66.2 |
| EntroCap | 62.5 | - | - | - |
| TOMCap | 71.2 | 70.8 | 68.5 | 70.4 |
关键发现¶
- TOMCap在MSCOCO和NoCaps上均超越所有纯文本和无训练方法
- 检索增强是最重要的组件,移除后CIDEr下降最多
- 均值+标准差对齐比仅均值对齐带来约2点CIDEr提升
- 检索数量K=4效果最佳,过多检索引入噪声
- 在NoCaps的Out-domain上优势明显,说明泛化能力强
亮点与洞察¶
- 模态差距修正的改进:从一阶矩(均值)扩展到二阶矩(标准差)的对齐,虽然简单但有效。这一思路可迁移到其他跨模态对齐场景。
- 检索作为训练目标:用最相似检索结果而非原始标注作为训练目标,巧妙地将检索从输入辅助升级为目标构建,提升泛化性。
- 极低训练成本:仅需文本数据和单GPU 6小时训练,非常适合资源受限场景。
局限与展望¶
- 仍然无法达到全监督方法的性能水平,差距约10-15个CIDEr点
- 依赖外部数据库(16M描述),数据库质量和覆盖度直接影响性能
- CLIP模态差距在不同域的偏移可能不同,均匀修正可能不是最优
- 仅使用GPT2-base作为解码器,更大的LLM可能带来更好效果但需要更多计算
相关工作与启发¶
- vs SmallCap:SmallCap也用检索增强+交叉注意力,但需要图像-文本对训练;TOMCap去除了图像训练数据的依赖
- vs CapDec:CapDec用高斯噪声弥补模态差距;TOMCap用统计矩对齐更精确地修正
评分¶
- 新颖性: ⭐⭐⭐ 方法是已有技术的组合优化,无根本性创新
- 实验充分度: ⭐⭐⭐⭐ 覆盖MSCOCO和NoCaps,消融详尽
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,实验部分组织良好
- 价值: ⭐⭐⭐ 纯文本训练图像描述是一个有意义但相对小众的方向