跳转至

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction

会议: CVPR 2026
arXiv: 2512.04309
代码: 待确认
领域: 多模态VLM
关键词: 图像描述, 纯文本训练, 检索增强, 模态差距修正, CLIP

一句话总结

提出TOMCap——一种纯文本训练的图像描述方法,通过检索增强+模态差距修正+LoRA微调,在训练时只用文本而推理时处理图像,超越了已有的无训练和纯文本方法。

研究背景与动机

领域现状:图像描述通常依赖大规模人工标注的图像-文本对进行监督训练。近年来出现了两类低资源方法:无训练方法(如ZeroCap)利用预训练模型零样本推理;纯文本方法仅用文本语料训练后在推理时切换到图像输入。

现有痛点:无训练方法容易产生幻觉,纯文本方法受限于CLIP模态差距——图像嵌入和文本嵌入在同一空间中的分布不完全对齐,导致训练时用文本特征、推理时用图像特征会产生偏差。

核心矛盾:纯文本训练的核心假设是文本嵌入可以替代图像嵌入,但CLIP的模态差距使这一假设不完全成立。现有方法只用高斯噪声注入来弥补差距,效果有限。

本文目标:整合检索增强、模态差距修正和latent表示解码三种策略,构建更强的纯文本训练框架。

切入角度:不仅修正均值,还对齐标准差来缩小模态差距;同时结合检索相似描述作为prompt来引导生成。

核心 idea:联合使用检索增强prompt构建、均值-标准差对齐的模态差距修正、和交叉注意力latent引导,实现高质量纯文本训练的图像描述。

方法详解

整体框架

训练时:文本描述经CLIP文本编码器得到嵌入→模态差距修正→检索相似描述构建prompt→GPT2解码器(带交叉注意力和LoRA)训练。推理时:图像经CLIP图像编码器→检索→prompt+交叉注意力→生成描述。

关键设计

  1. 模态差距修正 (Modality Gap Correction)

    • 功能:缩小CLIP图像和文本嵌入的分布差异
    • 核心思路:在每个维度上做标准化对齐: \(e_d^{T'_n} = (e_d^{T_n} - \mu_d^T) \times \frac{\sigma_d^I}{\sigma_d^T} + \mu_d^I\),不仅减去均值差异(如之前工作),还对齐标准差
    • 设计动机:仅对齐均值忽略了分布形状差异,导致修正后的文本嵌入范围与图像嵌入不匹配。对齐标准差能进一步缩小模态差距半径
  2. 检索增强 (Retrieval Augmentation)

    • 功能:检索语义相似的描述作为上下文prompt
    • 核心思路:用SigLIP2编码数据库中约16M描述,对输入嵌入做最近邻检索,取top-K构建prompt "Similar images have the following captions: {c1}...{ck}. Write a caption:"
    • 设计动机:检索的相似描述提供风格和语义上的参考,帮助模型捕获与输入图像相关的模式
  3. 交叉注意力 + LoRA微调

    • 功能:在GPT2各层加入交叉注意力层处理修正后的CLIP嵌入,同时用LoRA微调attention层
    • 核心思路:交叉注意力层以修正后的CLIP嵌入(输入+K个检索结果)为key/value,GPT2的隐藏状态为query。LoRA (rank=32) 仅微调注意力投影矩阵
    • 设计动机:交叉注意力提供latent级别的视觉引导;LoRA避免全参数微调导致的灾难性遗忘
  4. 训练目标设计

    • 功能:用检索到的最相似描述(而非原始ground truth)作为训练目标
    • 核心思路:选择数据库中与输入最相似的描述作为teacher forcing的目标
    • 设计动机:这鼓励模型学习"相似嵌入产生相同描述"的映射,提升泛化能力

损失函数 / 训练策略

标准交叉熵损失预测检索出的最相似描述的token序列。冻结CLIP和GPT2主干参数,仅训练交叉注意力层和LoRA参数。在NVIDIA RTX 6000上训练约6小时。

实验关键数据

主实验 (MSCOCO Karpathy test)

方法类别 方法名 B@4 METEOR CIDEr
Training-free LMCap 19.9 22.0 75.9
Text-only CapDec 26.4 25.1 91.8
Text-only ViECap 27.2 24.8 92.9
Text-only EntroCap 27.6 25.3 94.3
Text-only TOMCap (ours) 28.8 25.5 97.8

NoCaps验证集 (CIDEr)

方法 In-domain Near-domain Out-domain Overall
ViECap 61.1 64.3 65.0 66.2
EntroCap 62.5 - - -
TOMCap 71.2 70.8 68.5 70.4

关键发现

  • TOMCap在MSCOCO和NoCaps上均超越所有纯文本和无训练方法
  • 检索增强是最重要的组件,移除后CIDEr下降最多
  • 均值+标准差对齐比仅均值对齐带来约2点CIDEr提升
  • 检索数量K=4效果最佳,过多检索引入噪声
  • 在NoCaps的Out-domain上优势明显,说明泛化能力强

亮点与洞察

  • 模态差距修正的改进:从一阶矩(均值)扩展到二阶矩(标准差)的对齐,虽然简单但有效。这一思路可迁移到其他跨模态对齐场景。
  • 检索作为训练目标:用最相似检索结果而非原始标注作为训练目标,巧妙地将检索从输入辅助升级为目标构建,提升泛化性。
  • 极低训练成本:仅需文本数据和单GPU 6小时训练,非常适合资源受限场景。

局限与展望

  • 仍然无法达到全监督方法的性能水平,差距约10-15个CIDEr点
  • 依赖外部数据库(16M描述),数据库质量和覆盖度直接影响性能
  • CLIP模态差距在不同域的偏移可能不同,均匀修正可能不是最优
  • 仅使用GPT2-base作为解码器,更大的LLM可能带来更好效果但需要更多计算

相关工作与启发

  • vs SmallCap:SmallCap也用检索增强+交叉注意力,但需要图像-文本对训练;TOMCap去除了图像训练数据的依赖
  • vs CapDec:CapDec用高斯噪声弥补模态差距;TOMCap用统计矩对齐更精确地修正

评分

  • 新颖性: ⭐⭐⭐ 方法是已有技术的组合优化,无根本性创新
  • 实验充分度: ⭐⭐⭐⭐ 覆盖MSCOCO和NoCaps,消融详尽
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,实验部分组织良好
  • 价值: ⭐⭐⭐ 纯文本训练图像描述是一个有意义但相对小众的方向