VDRP: Visual Diversity and Region-aware Prompt Learning for Zero-shot HOI Detection¶

会议: NeurIPS 2025
arXiv: 2510.25094
代码: https://github.com/mlvlab/VDRP
领域: 视频/图像理解
关键词: HOI检测, 零样本学习, Prompt Learning, CLIP, 视觉多样性

一句话总结¶

提出 VDRP 框架，通过视觉多样性感知的 prompt 学习（注入组级方差 + 高斯扰动）和区域感知的 prompt 增强（基于 LLM 生成的区域概念检索），解决零样本 HOI 检测中类内视觉多样性和类间视觉纠缠两大挑战。

研究背景与动机¶

人-物交互（HOI）检测需要定位人和物体并识别它们之间的交互。零样本 HOI 检测要求模型泛化到训练时未见过的动词-物体组合，这带来了两个核心视觉挑战：

类内视觉多样性：同一个动词（如"拿着棒球手套"）在不同姿势、视角和场景下视觉差异巨大。作者量化发现动词类的多样性得分（0.364±0.060）显著高于物体类（0.274±0.048），说明单一静态 prompt 无法覆盖动词的视觉变化。

类间视觉纠缠：语义不同的动词（如"吃"、"舔"、"坐在旁边"）在全局/联合区域特征下产生高度相似的视觉模式，t-SNE 可视化显示不同动词类出现大量重叠。

现有方法不足：大多数 CLIP prompt 方法（GEN-VLKT、ADA-CM）每个动词仅用一个静态 prompt；CMMP 加入空间线索但文本 prompt 仍不感知区域；EZ-HOI 用 LLM 描述但忽略类内变化。

本文核心 idea：在 prompt 嵌入中同时编码视觉变化统计量（方差注入 + 扰动）和区域特定语义（概念检索 + 增强），两者互补地解决上述两个挑战。

方法详解¶

整体框架¶

采用两阶段 HOI 检测 pipeline：(1) 冻结的 DETR 检测器定位人和物体；(2) 基于 CLIP 的交互分类，通过轻量级 adapter 提取人 (\(\mathbf{x}_h\))、物体 (\(\mathbf{x}_o\))、联合区域 (\(\mathbf{x}_u\)) 特征。关键创新在文本 prompt 端：先生成视觉多样性感知 prompt，再用区域概念增强为区域感知 prompt，最终用三个区域的 logit 平均做动词分类。

关键设计¶

视觉多样性感知 Prompt 学习：
- 从训练集提取每个动词 \(v\) 的联合区域 CLS 特征，计算方差 \(\boldsymbol{\sigma}_v^2\)
- 按 CLIP 文本嵌入余弦相似度构建语义相近动词组 \(\mathcal{G}(v)\)，计算组级方差 \(\bar{\boldsymbol{\sigma}}_v^2 = \frac{1}{|\mathcal{G}(v)|}\sum_{v' \in \mathcal{G}(v)} \boldsymbol{\sigma}_{v'}^2\)（稳定化估计，对罕见动词尤为重要）
- 用 MLP 将组级方差转为调制向量 \(\mathbf{d}_v\)，注入共享上下文嵌入：\(\hat{\mathbf{E}}_v = \mathbf{E} + \mathbf{d}_v \alpha\)
- 经 CLIP 文本编码器后，再施加方差引导的高斯扰动：\(\tilde{\mathbf{t}}^v = \mathbf{t}^v + (\epsilon \odot \tilde{\boldsymbol{\sigma}}_v)\beta\)
区域感知 Prompt 增强：
- 用 LLM（LLaMA-7B / GPT-4）为每个动词的每个区域（人/物体/联合）生成 \(K\) 个视觉概念描述
- 用 CLIP 文本编码器编码为概念池 \(\mathcal{C}_{(\cdot)}^v\)
- 给定区域特征 \(\mathbf{x}_{(\cdot)}\)，计算与概念的余弦相似度，通过 Sparsemax（而非 Softmax）产生稀疏权重，仅保留最相关概念
- 加权聚合得区域概念向量 \(\bar{\mathbf{c}}_{(\cdot)}^v\)，增强至多样性 prompt：\(\hat{\mathbf{t}}_{(\cdot)}^v = \mathbf{t}^v + \bar{\mathbf{c}}_{(\cdot)}^v \gamma\)
空间增强的联合区域特征：通过 SpatialHead 融合联合区域特征与人、物体特征及其边界框，引入空间先验。

损失函数 / 训练策略¶

Focal Loss 用于多标签动词分类
轻量级 adapter 插入 CLIP 视觉编码器的多个 Transformer 块中，仅训练 4.50M 参数

实验关键数据¶

主实验¶

零样本设置	指标	本文(VDRP)	之前SOTA(EZ-HOI)	提升
NF-UC	HM / Unseen	33.85 / 36.45	31.76 / 33.66	+2.09 / +2.79
RF-UC	HM / Unseen	32.77 / 31.29	31.18 / 29.02	+1.59 / +2.27
UO	HM / Unseen	34.41 / 36.13	32.14 / 33.28	+2.27 / +2.85
UV	HM / Unseen	29.80 / 26.69	29.09 / 25.10	+0.71 / +1.59

消融实验¶

配置	NF-UC Unseen	RF-UC Unseen	UO Unseen	UV Unseen
BASE	28.32	25.64	28.60	22.41
+ VDP（多样性prompt）	32.19	29.16	33.29	23.78
+ RAP（区域prompt）	34.93	26.46	33.90	24.53
+ VDRP（完整）	36.45	31.29	36.13	26.69

关键发现¶

VDP 和 RAP 各自都有显著提升，两者结合效果最佳，说明类内多样性和类间判别性是互补的两个维度
在 NF-UC 设置下，VDRP 对 Unseen 类提升达 +8.13（从28.32到36.45），远超各单独模块
仅需 4.50M 可训练参数，远少于 CLIP4HOI (56.7M) 和 HOICLIP (66.18M)

亮点与洞察¶

方差即信息：将类内视觉方差从"噪声"变为"信号"，注入 prompt 中指导学习，是一个优雅的设计思路
Sparsemax for 概念检索：相比 Softmax，Sparsemax 能给不相关概念精确的零权重，避免噪声干扰
定量分析驱动设计：先通过 diversity score 和 t-SNE 定量分析问题，再针对性设计方案，方法论值得学习

局限与展望¶

区域概念依赖 LLM 生成，概念质量受 LLM 能力限制
组级方差的"相近动词组"定义依赖 CLIP 文本嵌入相似度，可能引入偏差
仅在 HICO-DET 上评估，缺乏 V-COCO 等其他 HOI 基准验证
扰动强度 \(\alpha, \beta, \gamma\) 等超参需要仔细调节

评分¶

新颖性: ⭐⭐⭐⭐ 方差注入 prompt 和区域概念检索的组合设计新颖
实验充分度: ⭐⭐⭐⭐ 四种零样本设置全覆盖，消融充分，但缺少跨数据集验证
写作质量: ⭐⭐⭐⭐⭐ 动机分析定量清晰，方法图示直观
价值: ⭐⭐⭐⭐ 对零样本 HOI 检测有实际推动，方差注入思路可推广到其他视觉任务