Imagine and Seek: Improving Composed Image Retrieval with an Imagined Proxy¶
会议: CVPR 2025
arXiv: 2411.16752
代码: 待确认
领域: 图像检索 / 多模态学习
关键词: 组合图像检索、虚拟代理图像、CLIP、零样本泛化、文本-图像对齐
一句话总结¶
提出IP-CIR方法,通过大语言模型生成"想象中的目标图像描述"作为代理,将组合图像检索(CIR)转化为标准图像检索问题,在CIRR和FashionIQ等基准上达到零样本SOTA。
研究背景与动机¶
领域现状:组合图像检索(CIR)的任务是给定参考图像+修改文本,检索符合修改要求的目标图像。现有方法需要大量三元组标注(参考图-文本-目标图),标注成本极高。
现有痛点: - 有监督CIR方法需昂贵的三元组数据,泛化性有限 - 零样本CIR方法(如Pic2Word、SEARLE)虽无需三元组,但性能显著低于有监督方法 - 现有方法难以有效融合图像内容与文本修改意图
核心洞察:如果能想象出修改后的目标图像长什么样(即生成一个"虚拟代理"描述),就可以用标准的文本-图像检索代替复杂的组合检索。LLM可以完成这种"想象"——根据参考图像描述和修改文本,推理出目标图像的描述。
方法详解¶
整体框架¶
参考图像 → BLIP2生成图像描述 → LLM(GPT-4)结合修改文本生成目标描述 → CLIP文本编码器编码 → 与数据库图像特征匹配检索。
关键设计¶
-
想象代理生成(Imagined Proxy)
- 用BLIP2将参考图像转为文本描述
- 将图像描述+修改文本输入LLM,生成"想象中的目标图像描述"
- 例:参考图描述"红色裙子" + 修改文本"换成蓝色" → 想象描述"蓝色裙子"
- 设计动机:利用LLM的推理能力完成视觉想象,避免复杂的多模态融合
-
特征融合与匹配
- 用CLIP文本编码器编码想象描述得到代理特征
- 结合原始参考图像的CLIP视觉特征进行加权融合
- 与数据库中所有图像的CLIP视觉特征计算相似度
- 设计动机:保留参考图像的视觉细节,同时注入文本修改意图
-
训练策略
- 零样本设置:无需任何CIR三元组训练数据
- 仅在推理时使用LLM生成代理描述
- 可选fine-tune:在有标注数据时可进一步微调对齐模块
损失函数 / 训练策略¶
零样本设置无需训练。有监督设置使用对比学习损失对齐代理特征与目标图像特征。
实验关键数据¶
主实验:零样本CIR¶
| 数据集 | 指标 | IP-CIR | Pic2Word | SEARLE |
|---|---|---|---|---|
| CIRR | Recall@10 | 70.07 | 58.2 | 62.1 |
| CIRR | Recall@50 | 87.3 | 79.6 | 82.5 |
| FashionIQ (Dress) | Recall@10 | 32.4 | 26.8 | 28.9 |
消融实验¶
| 配置 | Recall@10 | 说明 |
|---|---|---|
| 仅文本修改 | 55.3 | 忽略参考图像 |
| 仅图像特征 | 48.7 | 无文本修改 |
| 想象代理(文本) | 65.2 | LLM生成描述 |
| 想象代理+图像融合 | 70.07 | 完整方法 |
关键发现¶
- 想象代理显著优于直接文本修改(70.07 vs 55.3),证明LLM推理对CIR有价值
- 图像特征融合额外贡献约5个点的Recall,说明保留视觉细节重要
- 零样本性能接近甚至超越部分有监督方法
亮点与洞察¶
- 范式转换:将组合检索问题转化为"先想象后检索",绕过了三元组标注瓶颈
- LLM作为视觉推理器:利用LLM的常识推理能力完成视觉想象
- 即插即用:方法与具体CLIP模型无关,可适配任何多模态基础模型
局限与展望¶
- 依赖LLM的推理质量,复杂修改(如空间关系变换)可能想象不准确
- BLIP2的图像描述可能遗漏关键视觉细节
- LLM推理增加推理延迟
- 对细粒度属性修改(如纹理变化)效果有待验证
相关工作与启发¶
- vs Pic2Word:Pic2Word将图像投影到文本空间,但缺乏推理;本文用LLM显式推理
- vs SEARLE:SEARLE用检索增强,本文用生成增强
评分¶
- 新颖性: ⭐⭐⭐⭐ 想象代理的思路直观且有效
- 实验充分度: ⭐⭐⭐⭐ 多数据集验证,消融清晰
- 写作质量: ⭐⭐⭐⭐ 动机清晰
- 价值: ⭐⭐⭐⭐ 零样本CIR的实用解决方案