跳转至

VIRTUE: Visual-Interactive Text-Image Universal Embedder

会议: ICLR 2026
arXiv: 2510.00523
代码: GitHub
领域: 图像分割(多模态嵌入/视觉交互)
关键词: visual prompt, embedding model, SAM2, VLM, visual-interactive, retrieval

一句话总结

提出 VIRTUE,将分割模型 SAM2 与 VLM 结合构建视觉交互式通用嵌入器,支持用户通过点/框/掩码指定兴趣区域产生实体级+全局级联合嵌入,并构建百万级 SCaR 基准评估视觉交互检索能力,在 36 个 MMEB 任务(+3.1%-8.5%)和 5 个 SCaR 任务(+15.2%-20.3%)上均达到 SOTA。

研究背景与动机

嵌入模型的交互局限:现有 VLM 嵌入模型(VLM2Vec/GME/LamRA)仅支持文本指令交互,缺乏视觉交互能力(点/框/掩码等 visual prompt)

视觉提示的价值:在生成模型中已广泛使用(SAM、GroundingDINO),但嵌入模型尚未探索。视觉提示可提供精确空间定位用于细粒度理解

裁剪的不足:直觉的 ROI 裁剪方案会丢失全局场景上下文——"桌上的沙拉叉"裁剪后失去"桌"的信息,导致在需要组合推理的检索中失败

同一图像不同实体需求:同一图像中的狗和猫需要不同嵌入,但整体嵌入无法区分

缺乏评估基准:没有评估视觉交互嵌入能力的公开基准

方法详解

架构: SAM2 + VLM (Qwen2-VL) + 分割-语言连接器

三路嵌入融合

  1. 分割嵌入 \(H_s\):SAM2 的 prompt encoder 处理视觉提示(点/框/掩码)→ mask decoder 生成 64×64 特征图 \(F_s\) → Conv2D 压缩到 \(|S|\) 个 token → MLP 投影到 LLM 维度 \(d\)
  2. 视觉嵌入 \(H_v\):VLM 的 vision encoder 提取全局上下文
  3. 文本嵌入 \(H_t\):LLM 的文本嵌入层处理指令文本

无视觉提示时的策略

均匀采样 \(N\) 个点作为替代输入 SAM2,利用 SAM2 的自动分割能力提取多实体级特征,确保在传统非交互任务上也有增益

训练方案

  • 拼接 \([H_s, H_v, H_t]\) → LLM → 取最后 token 的 hidden state → InfoNCE 对比学习
  • SAM2 和 vision encoder 冻结,仅训练 LoRA(rank=8)+ 分割-语言连接器(从头训练)
  • 20 个 MMEB 训练集,batch size 1024

SCaR Benchmark(百万级新基准)

  • 任务:给定图像+ROI 框,检索描述该实体在全局场景中的标题
  • 来源:RefCOCO+/RefCOCOg/VisualGenome/COCO-Stuff/ADE20K 五个数据集
  • 规模:957K 训练 + 47K 评估样本
  • 负样本:GPT-4V 生成——对象/关系/场景三种元素替换策略,每样本 9 个干扰项
  • 多阶段质量控制:GPT-4V 验证 + WordNet 同义词检测 + 人工审查

实验关键数据

MMEB Overall (36 tasks)

模型 参数 IND OOD Overall
VLM2Vec-2B 2B 60.7 57.3 59.7
VIRTUE-2B 2B 69.7 58.8 64.8
VLM2Vec-7B 7B 71.4 58.1 65.5
UniME-7B 7B 68.4 57.9 66.6
VIRTUE-7B 7B 74.4 61.4 68.6

SCaR (5 visual-interactive tasks)

模型 RefCOCOg RefCOCO+ COCO-Stuff VG ADE20K
VLM2Vec-7B 56.2 52.1 45.3 42.8 38.1
VIRTUE-7B 75.1 70.8 62.5 59.4 55.9

消融实验

配置 MMEB Overall SCaR Avg 说明
无分割嵌入 65.5 52.1 VLM2Vec 基线
+ 裁剪 ROI 65.8 54.3 裁剪帮助有限
+ 全SAM2特征 67.1 63.2 实体级信息有效
+ 完整 VIRTUE 68.6 68.2 最佳

关键发现

  • 分割嵌入在非交互场景下(均匀采样点)也提供实体级信息增益
  • 即使在传统 MMEB 任务(无视觉提示)上也有 3.1%-8.5% 提升
  • SAM2 作为结构化先验比裁剪更精确地捕捉实体语义(避免包含背景、跨实体等问题)

亮点与洞察

  • 新交互范式:首次将视觉提示(点/框/掩码)引入嵌入模型,定义了全新问题空间
  • SCaR 基准:百万级数据 + GPT-4V 生成高质量干扰项 + 多阶段过滤,是可靠的评估工具
  • 兼顾通用性:无视觉提示时自动采样点策略保证了在传统任务上的竞争力
  • 实用性强:SAM2 冻结 + LoRA 微调,训练成本可控

局限与展望

  • SAM2 增加推理计算开销(额外的分割前向传播)
  • SCaR 仅评估 I2T 检索,未覆盖 I2I 视觉交互场景
  • 均匀采样点的自动策略可能不是最优的实体发现方式(可考虑自动目标检测驱动)
  • 分割-语言连接器需从头训练,增加了训练复杂度

相关工作与启发

  • VLM2Vec/GME/LamRA:VLM 嵌入模型基线,仅支持文本交互
  • CLIP/SigLIP/OpenCLIP:双塔嵌入模型,全局匹配无区域感知
  • SAM2:作为实体级特征提取器被引入嵌入学习

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 视觉交互嵌入 = 全新问题定义 + 新基准
  • 实验充分度: ⭐⭐⭐⭐⭐ 36+5 任务 + 大量消融 + 两种规模模型
  • 写作质量: ⭐⭐⭐⭐ 清晰系统,基准构建过程透明
  • 价值: ⭐⭐⭐⭐⭐ 开辟视觉交互嵌入新方向 + 高质量基准