Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction¶

会议: CVPR 2026
arXiv: 2512.04309
代码: 待确认
领域: 多模态VLM
关键词: 图像描述, 纯文本训练, 检索增强, 模态差距修正, CLIP

一句话总结¶

提出TOMCap——一种纯文本训练的图像描述方法，通过检索增强+模态差距修正+LoRA微调，在训练时只用文本而推理时处理图像，超越了已有的无训练和纯文本方法。

研究背景与动机¶

领域现状：图像描述通常依赖大规模人工标注的图像-文本对进行监督训练。近年来出现了两类低资源方法：无训练方法（如ZeroCap）利用预训练模型零样本推理；纯文本方法仅用文本语料训练后在推理时切换到图像输入。

现有痛点：无训练方法容易产生幻觉，纯文本方法受限于CLIP模态差距——图像嵌入和文本嵌入在同一空间中的分布不完全对齐，导致训练时用文本特征、推理时用图像特征会产生偏差。

核心矛盾：纯文本训练的核心假设是文本嵌入可以替代图像嵌入，但CLIP的模态差距使这一假设不完全成立。现有方法只用高斯噪声注入来弥补差距，效果有限。

本文目标：整合检索增强、模态差距修正和latent表示解码三种策略，构建更强的纯文本训练框架。

切入角度：不仅修正均值，还对齐标准差来缩小模态差距；同时结合检索相似描述作为prompt来引导生成。

核心 idea：联合使用检索增强prompt构建、均值-标准差对齐的模态差距修正、和交叉注意力latent引导，实现高质量纯文本训练的图像描述。

方法详解¶

整体框架¶

训练时：文本描述经CLIP文本编码器得到嵌入→模态差距修正→检索相似描述构建prompt→GPT2解码器（带交叉注意力和LoRA）训练。推理时：图像经CLIP图像编码器→检索→prompt+交叉注意力→生成描述。

关键设计¶

模态差距修正 (Modality Gap Correction)：
- 功能：缩小CLIP图像和文本嵌入的分布差异
- 核心思路：在每个维度上做标准化对齐: \(e_d^{T'_n} = (e_d^{T_n} - \mu_d^T) \times \frac{\sigma_d^I}{\sigma_d^T} + \mu_d^I\)，不仅减去均值差异（如之前工作），还对齐标准差
- 设计动机：仅对齐均值忽略了分布形状差异,导致修正后的文本嵌入范围与图像嵌入不匹配。对齐标准差能进一步缩小模态差距半径
检索增强 (Retrieval Augmentation)：
- 功能：检索语义相似的描述作为上下文prompt
- 核心思路：用SigLIP2编码数据库中约16M描述，对输入嵌入做最近邻检索，取top-K构建prompt "Similar images have the following captions: {c1}...{ck}. Write a caption:"
- 设计动机：检索的相似描述提供风格和语义上的参考，帮助模型捕获与输入图像相关的模式
交叉注意力 + LoRA微调：
- 功能：在GPT2各层加入交叉注意力层处理修正后的CLIP嵌入，同时用LoRA微调attention层
- 核心思路：交叉注意力层以修正后的CLIP嵌入（输入+K个检索结果）为key/value，GPT2的隐藏状态为query。LoRA (rank=32) 仅微调注意力投影矩阵
- 设计动机：交叉注意力提供latent级别的视觉引导；LoRA避免全参数微调导致的灾难性遗忘
训练目标设计：
- 功能：用检索到的最相似描述（而非原始ground truth）作为训练目标
- 核心思路：选择数据库中与输入最相似的描述作为teacher forcing的目标
- 设计动机：这鼓励模型学习"相似嵌入产生相同描述"的映射，提升泛化能力

损失函数 / 训练策略¶

标准交叉熵损失预测检索出的最相似描述的token序列。冻结CLIP和GPT2主干参数，仅训练交叉注意力层和LoRA参数。在NVIDIA RTX 6000上训练约6小时。

实验关键数据¶

主实验 (MSCOCO Karpathy test)¶

方法类别	方法名	B@4	METEOR	CIDEr
Training-free	LMCap	19.9	22.0	75.9
Text-only	CapDec	26.4	25.1	91.8
Text-only	ViECap	27.2	24.8	92.9
Text-only	EntroCap	27.6	25.3	94.3
Text-only	TOMCap (ours)	28.8	25.5	97.8

NoCaps验证集 (CIDEr)¶

方法	In-domain	Near-domain	Out-domain	Overall
ViECap	61.1	64.3	65.0	66.2
EntroCap	62.5	-	-	-
TOMCap	71.2	70.8	68.5	70.4

关键发现¶

TOMCap在MSCOCO和NoCaps上均超越所有纯文本和无训练方法
检索增强是最重要的组件，移除后CIDEr下降最多
均值+标准差对齐比仅均值对齐带来约2点CIDEr提升
检索数量K=4效果最佳，过多检索引入噪声
在NoCaps的Out-domain上优势明显，说明泛化能力强

亮点与洞察¶

模态差距修正的改进：从一阶矩（均值）扩展到二阶矩（标准差）的对齐，虽然简单但有效。这一思路可迁移到其他跨模态对齐场景。
检索作为训练目标：用最相似检索结果而非原始标注作为训练目标，巧妙地将检索从输入辅助升级为目标构建，提升泛化性。
极低训练成本：仅需文本数据和单GPU 6小时训练，非常适合资源受限场景。

局限与展望¶

仍然无法达到全监督方法的性能水平，差距约10-15个CIDEr点
依赖外部数据库（16M描述），数据库质量和覆盖度直接影响性能
CLIP模态差距在不同域的偏移可能不同，均匀修正可能不是最优
仅使用GPT2-base作为解码器，更大的LLM可能带来更好效果但需要更多计算

评分¶

新颖性: ⭐⭐⭐ 方法是已有技术的组合优化，无根本性创新
实验充分度: ⭐⭐⭐⭐ 覆盖MSCOCO和NoCaps，消融详尽
写作质量: ⭐⭐⭐⭐ 方法描述清晰，实验部分组织良好
价值: ⭐⭐⭐ 纯文本训练图像描述是一个有意义但相对小众的方向