Imagine and Seek: Improving Composed Image Retrieval with an Imagined Proxy¶

会议: CVPR 2025
arXiv: 2411.16752
代码: 待确认
领域: 图像检索 / 多模态学习
关键词: 组合图像检索、虚拟代理图像、CLIP、零样本泛化、文本-图像对齐

一句话总结¶

提出IP-CIR方法，通过大语言模型生成"想象中的目标图像描述"作为代理，将组合图像检索(CIR)转化为标准图像检索问题，在CIRR和FashionIQ等基准上达到零样本SOTA。

领域现状：组合图像检索(CIR)的任务是给定参考图像+修改文本，检索符合修改要求的目标图像。现有方法需要大量三元组标注（参考图-文本-目标图），标注成本极高。

现有痛点： - 有监督CIR方法需昂贵的三元组数据，泛化性有限 - 零样本CIR方法（如Pic2Word、SEARLE）虽无需三元组，但性能显著低于有监督方法 - 现有方法难以有效融合图像内容与文本修改意图

核心洞察：如果能想象出修改后的目标图像长什么样（即生成一个"虚拟代理"描述），就可以用标准的文本-图像检索代替复杂的组合检索。LLM可以完成这种"想象"——根据参考图像描述和修改文本，推理出目标图像的描述。

参考图像 → BLIP2生成图像描述 → LLM(GPT-4)结合修改文本生成目标描述 → CLIP文本编码器编码 → 与数据库图像特征匹配检索。

想象代理生成（Imagined Proxy）
- 用BLIP2将参考图像转为文本描述
- 将图像描述+修改文本输入LLM，生成"想象中的目标图像描述"
- 例：参考图描述"红色裙子" + 修改文本"换成蓝色" → 想象描述"蓝色裙子"
- 设计动机：利用LLM的推理能力完成视觉想象，避免复杂的多模态融合
特征融合与匹配
- 用CLIP文本编码器编码想象描述得到代理特征
- 结合原始参考图像的CLIP视觉特征进行加权融合
- 与数据库中所有图像的CLIP视觉特征计算相似度
- 设计动机：保留参考图像的视觉细节，同时注入文本修改意图
训练策略
- 零样本设置：无需任何CIR三元组训练数据
- 仅在推理时使用LLM生成代理描述
- 可选fine-tune：在有标注数据时可进一步微调对齐模块

零样本设置无需训练。有监督设置使用对比学习损失对齐代理特征与目标图像特征。

数据集	指标	IP-CIR	Pic2Word	SEARLE
CIRR	Recall@10	70.07	58.2	62.1
CIRR	Recall@50	87.3	79.6	82.5
FashionIQ (Dress)	Recall@10	32.4	26.8	28.9