跳转至

VDRP: Visual Diversity and Region-aware Prompt Learning for Zero-shot HOI Detection

会议: NeurIPS 2025
arXiv: 2510.25094
代码: https://github.com/mlvlab/VDRP
领域: 视频/图像理解
关键词: HOI检测, 零样本学习, Prompt Learning, CLIP, 视觉多样性

一句话总结

提出 VDRP 框架,通过视觉多样性感知的 prompt 学习(注入组级方差 + 高斯扰动)和区域感知的 prompt 增强(基于 LLM 生成的区域概念检索),解决零样本 HOI 检测中类内视觉多样性和类间视觉纠缠两大挑战。

研究背景与动机

人-物交互(HOI)检测需要定位人和物体并识别它们之间的交互。零样本 HOI 检测要求模型泛化到训练时未见过的动词-物体组合,这带来了两个核心视觉挑战:

类内视觉多样性:同一个动词(如"拿着棒球手套")在不同姿势、视角和场景下视觉差异巨大。作者量化发现动词类的多样性得分(0.364±0.060)显著高于物体类(0.274±0.048),说明单一静态 prompt 无法覆盖动词的视觉变化。

类间视觉纠缠:语义不同的动词(如"吃"、"舔"、"坐在旁边")在全局/联合区域特征下产生高度相似的视觉模式,t-SNE 可视化显示不同动词类出现大量重叠。

现有方法不足:大多数 CLIP prompt 方法(GEN-VLKT、ADA-CM)每个动词仅用一个静态 prompt;CMMP 加入空间线索但文本 prompt 仍不感知区域;EZ-HOI 用 LLM 描述但忽略类内变化。

本文核心 idea:在 prompt 嵌入中同时编码视觉变化统计量(方差注入 + 扰动)和区域特定语义(概念检索 + 增强),两者互补地解决上述两个挑战。

方法详解

整体框架

采用两阶段 HOI 检测 pipeline:(1) 冻结的 DETR 检测器定位人和物体;(2) 基于 CLIP 的交互分类,通过轻量级 adapter 提取人 (\(\mathbf{x}_h\))、物体 (\(\mathbf{x}_o\))、联合区域 (\(\mathbf{x}_u\)) 特征。关键创新在文本 prompt 端:先生成视觉多样性感知 prompt,再用区域概念增强为区域感知 prompt,最终用三个区域的 logit 平均做动词分类。

关键设计

  1. 视觉多样性感知 Prompt 学习

    • 从训练集提取每个动词 \(v\) 的联合区域 CLS 特征,计算方差 \(\boldsymbol{\sigma}_v^2\)
    • 按 CLIP 文本嵌入余弦相似度构建语义相近动词组 \(\mathcal{G}(v)\),计算组级方差 \(\bar{\boldsymbol{\sigma}}_v^2 = \frac{1}{|\mathcal{G}(v)|}\sum_{v' \in \mathcal{G}(v)} \boldsymbol{\sigma}_{v'}^2\)(稳定化估计,对罕见动词尤为重要)
    • 用 MLP 将组级方差转为调制向量 \(\mathbf{d}_v\),注入共享上下文嵌入:\(\hat{\mathbf{E}}_v = \mathbf{E} + \mathbf{d}_v \alpha\)
    • 经 CLIP 文本编码器后,再施加方差引导的高斯扰动:\(\tilde{\mathbf{t}}^v = \mathbf{t}^v + (\epsilon \odot \tilde{\boldsymbol{\sigma}}_v)\beta\)
  2. 区域感知 Prompt 增强

    • 用 LLM(LLaMA-7B / GPT-4)为每个动词的每个区域(人/物体/联合)生成 \(K\) 个视觉概念描述
    • 用 CLIP 文本编码器编码为概念池 \(\mathcal{C}_{(\cdot)}^v\)
    • 给定区域特征 \(\mathbf{x}_{(\cdot)}\),计算与概念的余弦相似度,通过 Sparsemax(而非 Softmax)产生稀疏权重,仅保留最相关概念
    • 加权聚合得区域概念向量 \(\bar{\mathbf{c}}_{(\cdot)}^v\),增强至多样性 prompt:\(\hat{\mathbf{t}}_{(\cdot)}^v = \mathbf{t}^v + \bar{\mathbf{c}}_{(\cdot)}^v \gamma\)
  3. 空间增强的联合区域特征:通过 SpatialHead 融合联合区域特征与人、物体特征及其边界框,引入空间先验。

损失函数 / 训练策略

  • Focal Loss 用于多标签动词分类
  • 轻量级 adapter 插入 CLIP 视觉编码器的多个 Transformer 块中,仅训练 4.50M 参数

实验关键数据

主实验

零样本设置 指标 本文(VDRP) 之前SOTA(EZ-HOI) 提升
NF-UC HM / Unseen 33.85 / 36.45 31.76 / 33.66 +2.09 / +2.79
RF-UC HM / Unseen 32.77 / 31.29 31.18 / 29.02 +1.59 / +2.27
UO HM / Unseen 34.41 / 36.13 32.14 / 33.28 +2.27 / +2.85
UV HM / Unseen 29.80 / 26.69 29.09 / 25.10 +0.71 / +1.59

消融实验

配置 NF-UC Unseen RF-UC Unseen UO Unseen UV Unseen
BASE 28.32 25.64 28.60 22.41
+ VDP(多样性prompt) 32.19 29.16 33.29 23.78
+ RAP(区域prompt) 34.93 26.46 33.90 24.53
+ VDRP(完整) 36.45 31.29 36.13 26.69

关键发现

  • VDP 和 RAP 各自都有显著提升,两者结合效果最佳,说明类内多样性和类间判别性是互补的两个维度
  • 在 NF-UC 设置下,VDRP 对 Unseen 类提升达 +8.13(从28.32到36.45),远超各单独模块
  • 仅需 4.50M 可训练参数,远少于 CLIP4HOI (56.7M) 和 HOICLIP (66.18M)

亮点与洞察

  • 方差即信息:将类内视觉方差从"噪声"变为"信号",注入 prompt 中指导学习,是一个优雅的设计思路
  • Sparsemax for 概念检索:相比 Softmax,Sparsemax 能给不相关概念精确的零权重,避免噪声干扰
  • 定量分析驱动设计:先通过 diversity score 和 t-SNE 定量分析问题,再针对性设计方案,方法论值得学习

局限与展望

  • 区域概念依赖 LLM 生成,概念质量受 LLM 能力限制
  • 组级方差的"相近动词组"定义依赖 CLIP 文本嵌入相似度,可能引入偏差
  • 仅在 HICO-DET 上评估,缺乏 V-COCO 等其他 HOI 基准验证
  • 扰动强度 \(\alpha, \beta, \gamma\) 等超参需要仔细调节

相关工作与启发

  • vs EZ-HOI: EZ-HOI 用 LLM 描述区分动词语义差异但忽略类内变化,VDRP 同时处理两个维度
  • vs CMMP: CMMP 加入空间线索但文本 prompt 不感知区域,VDRP 的区域概念检索更细粒度
  • vs CoOp/CoCoOp: 将 prompt learning 从分类任务扩展到了 HOI 检测的多区域场景

评分

  • 新颖性: ⭐⭐⭐⭐ 方差注入 prompt 和区域概念检索的组合设计新颖
  • 实验充分度: ⭐⭐⭐⭐ 四种零样本设置全覆盖,消融充分,但缺少跨数据集验证
  • 写作质量: ⭐⭐⭐⭐⭐ 动机分析定量清晰,方法图示直观
  • 价值: ⭐⭐⭐⭐ 对零样本 HOI 检测有实际推动,方差注入思路可推广到其他视觉任务