Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition¶

会议: ICLR 2026
arXiv: 2602.15124
代码: https://github.com/SY-Xuan/DA-HOI
作者: Shiyu Xuan, Dongkai Wang, Zechao Li, Jinhui Tang
领域: 多模态VLM
关键词: HOI detection, zero-shot, MLLM, interaction recognition, detector-agnostic

一句话总结¶

提出将目标检测与交互识别完全解耦的零样本 HOI 检测框架 DA-HOI，利用 MLLM 的 VQA 能力替代传统 CLIP 特征做交互识别，核心贡献是确定性生成（training-free 即达 31.50 mAP）、空间感知池化（引入空间先验和跨注意力）和单次确定性匹配（M 次前向变 1 次），在 HICO-DET 四种零样本设定下全面超越 SOTA，且训练后可即插即用切换任意检测器。

研究背景与动机¶

领域现状：HOI 检测要求同时定位人和物体、识别它们之间的交互关系。近年基于 CLIP 的零样本方法（GEN-VLKT、HOICLIP、ADA-CM、LAIN 等）通过文本嵌入构建交互分类器取得初步进展，但性能瓶颈仍然明显。

现有痛点：

CLIP 特征分辨力不足：CLIP 擅长类别级对齐，但对"holding a cup"和"lifting a cup"这类视觉相似交互缺乏细粒度区分能力，必须额外融合检测器特征补偿

检测器-交互识别耦合严重：包括 ADA-CM、BCOM 等两阶段方法在内，交互识别模块都依赖特定检测器的特征或物体间关系建模（如 UPT），更换检测器即需重新训练——BCOM 换 Grounding-DINO 后 Full mAP 从 33.74 暴跌至 20.31

泛化天花板低：基于 CLIP 的方法本质上只在训练类别上对齐视觉和文本特征，对 Unseen Verb/Object 类别泛化困难

核心矛盾：开放词汇检测器已能较好地定位未见物体，真正瓶颈在交互识别——而交互识别恰恰被绑在了特定检测器上。

本文切入角度：MLLM 在大规模图文对和指令跟随任务上训练，具备远超 CLIP 的跨模态泛化能力和细粒度理解能力。如果将 HOI 检测拆成两个独立流程——检测器负责定位、MLLM 负责交互识别——就可以各自利用最强模型，且模块间解耦带来即插即用的灵活性。

核心 idea：把交互识别建模为向 MLLM 提问的 VQA 任务，用确定性生成获取多标签置信度，用空间感知池化注入空间先验，用单次匹配消除重复推理开销。

方法详解¶

整体框架¶

DA-HOI 将 HOI 检测解耦为两个完全独立的阶段：

目标检测阶段：使用任意检测器（DETR / Grounding-DINO / Yolo-World）获取检测结果 \(\{C^i, B^i\}_{i=1}^{N_{\text{det}}}\)
交互识别阶段：将所有人类实例与物体实例配对，对每个人-物对 \((B_h, B_o, C_o)\) 构造 VQA prompt 送入 MLLM（Qwen2.5-VL），预测交互置信度

两阶段之间唯一的接口是边界框坐标和类别标签，不共享特征，因此训练后可自由更换检测器而无需重训。整条流水线是：检测器枚举出人-物对后，先经空间感知池化（SAP）把每对的外观和相对空间关系压成交互特征，再交给 MLLM 用确定性生成给候选交互打分，最后融合各路置信度输出 HOI 三元组。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    IMG["输入图像"] --> DET["目标检测器(任意)<br/>DETR / Grounding-DINO<br/>/ Yolo-World"]
    DET --> PAIR["人-物配对<br/>枚举 (B_h, B_o, C_o)"]
    PAIR --> SAP["空间感知池化 SAP<br/>框外上下文 + 7维空间向量<br/>→ 交互特征 f_inter"]
    SAP -->|交互性分类器<br/>先过滤非交互对| SCORE
    subgraph SCORE["MLLM 交互打分"]
        direction TB
        DG["确定性生成<br/>条件似然度做多标签判别<br/>(training-free 即用)"]
        DM["单次确定性匹配 DM<br/>全候选一次前向 + 余弦匹配"]
        DG -. 训练后由 DM 高效实现 .-> DM
    end
    SCORE --> FUSE["置信度融合<br/>S_v · S_inter · S_h · S_o"]
    FUSE --> OUT["HOI 三元组输出"]

关键设计¶

1. 确定性生成：把 MLLM 的自由文本回答改造成可评分的多标签判别

如果直接让 MLLM 回答"图里这个人和这个杯子在做什么"，会撞上三个硬伤：格式错误率高达 36.78%（输出不是标准交互词），单输出偏差严重——80.91% 的回答只给一个交互，而交互识别本质是多标签问题，而且文本回答压根给不出 mAP 评价所需的置信度分数。确定性生成绕开了"让模型自由说话"这条路：对候选交互列表 \(\Theta(C_o) = \{T_1, T_2, \dots, T_M\}\) 里的每个候选 \(T_k\)，不去读模型的输出，而是直接算它在当前图像和问题条件下"生成这串词"的条件似然度，把这个似然度当作该交互的置信分数：

\[S_v[k] = p(T_k | I, Q) = \prod_{j=1}^{N} p(t[j] | T_k[<j], I, Q)\]

这样一来格式错误率和单输出率都直接归零——因为根本不依赖模型实际吐出什么，每个候选都能独立拿到一个 \([0,1]\) 的分数。和 ADA-CM 这类用 CLIP 算视觉-文本相似度的做法相比，这里换成了 MLLM 更强的跨模态理解、用条件生成概率做判别；即使一行训练都不做，training-free 就到 31.50 mAP，已经超过 ADA-CM 的 25.19。

2. 空间感知池化（SAP）：给交互特征补上框外上下文和人-物相对空间关系

ROIAlign 抠出来的特征只看得到框内，碰上部分遮挡、背景干扰、检测框画歪的情况就很脆弱；更要命的是它完全丢掉了人和物的相对位置，而位置恰恰是区分"sit on chair"和"stand next to chair"的关键。SAP 分三步把交互特征补强：先把 ROIAlign 得到的人/物特征 \(f_h, f_o\) 经 MLP 融成初始交互特征 \(f_{\text{inter}}\)；再用一层交叉注意力从全局图像特征里聚合边界框外部的上下文，弥补框不准时丢失的信息；最后编码一个 7 维成对空间向量

\[U = [w_h h_h, w_o h_o, \frac{w_h}{h_h}, \frac{w_o}{h_o}, \text{IoU}(B_h, B_o), \frac{x_h - x_o}{w_h}, \frac{y_h - y_o}{h_h}]\]

它把面积（区分大小物体）、宽高比（区分形状）、IoU（衡量人物重叠程度）、人到物的方向（区分左右上下）都显式写进去，经 MLP 投影后加性融合进交互特征。消融能看出这两路各有贡献：去掉空间编码 UO Full 掉 1.62，去掉交叉注意力掉 2.23。SAP 还顺带训练了一个线性分类器 \(S_{\text{interactiveness}} = \sigma(\text{Linear}(f_{\text{inter}}))\) 来判断一对人-物到底有没有交互，推理时先用它过滤掉大量非交互对，单这一步就把推理时间从 569ms 压到 217ms。

3. 单次确定性匹配（DM）：把 M 次前向传播折成一次

确定性生成效果好，但有个绕不开的代价：算分的计算量和候选数 M 成正比。HICO-DET 里单个物体类别平均有约 15 个候选交互，意味着每一对人-物都要让 LLM 前向 15 次，密集场景下开销爆炸。DM 把"逐候选算生成概率"换成"一次算完所有候选"：在候选列表里每个候选后面插一个特殊 token <|hoi|>，把所有候选拼进同一个 prompt 一次性送进 LLM，取出每个特殊 token 的输出特征 \(\hat{f}_{\text{hoi}}[k]\) 和交互特征 \(\hat{f}_{\text{inter}}\)，用余弦相似度替代原来的条件生成概率来打分：

\[S_v[k] = \text{cosine}(\hat{f}_{\text{hoi}}[k], \hat{f}_{\text{inter}})\]

生成问题就此变成一次前向里的特征匹配，所有候选的分数同时出来。配合 SAP 的非交互对过滤，推理时间从基线 569ms 进一步降到 91ms，整体加速 6.3 倍。

训练策略¶

两阶段训练，视觉编码器始终冻结：

第一阶段：仅训练 SAP（30 epochs, lr=1e-4, batch=16），用 Binary Focal Loss 训练交互性预测和空间编码
第二阶段：冻结 SAP，仅用 LoRA 微调 LLM（16 epochs, lr=1e-4, batch=16），用 Focal BCE 训练确定性匹配

推理时最终置信度：\(\hat{S}^i_v[k] = S^i_v[k] \cdot S^i_{\text{interactiveness}} \cdot S^i_h \cdot S^i_o\)，融合交互分数、交互性分数和检测器置信度。所有实验在 4 张 RTX 3090 上完成。

实验关键数据¶

主实验：HICO-DET 零样本性能¶

方法	RF-UC Full	NF-UC Full	UO Full	UV Full	Avg Full
GEN-VLKT	30.56	23.71	25.63	28.74	27.16
HOICLIP	32.99	27.75	28.53	31.09	30.09
CLIP4HOI	34.08	28.90	32.58	30.42	31.50
LAIN	34.41	33.23	34.27	33.12	33.76
EZ-HOI	36.73	34.84	36.38	36.84	36.20
BC-HOI (BLIP2)	40.99	36.40	34.18	39.89	37.87
DA-HOI (Ours)	43.56	40.33	43.60	42.88	42.59
Ours + Grounding-DINO	44.81	41.51	45.28	44.43	44.00
Ours + Yolo-World	44.00	42.01	44.82	43.88	43.68
ADA-CM (training-free)	-	-	25.19	25.19	25.19
Ours (training-free)	-	-	31.50	31.50	31.50

消融实验：组件贡献 & 推理效率¶

配置	UO Full	UV Full	推理时间 (ms/图)
Baseline (SFT + Det. Gen.)	39.24	37.84	569
+ SAP only	42.31	41.95	217
+ DM only	40.50	39.24	189
+ SAP + DM (Full)	43.60	42.88	91
Full − Pairwise Spatial	41.98	40.77	86
Full − Cross Attention	41.37	40.74	87
替换 SAP 为 UPT	41.76	40.58	122

关键发现¶

确定性生成是最关键设计：training-free 设定下从简单 QA 的 14.23 mAP 提升到 31.50 mAP（+17.27），提升幅度超过所有微调组件之和。即使做了 SFT，不加确定性生成只有 31.61，加上后升至 39.87（+8.26）
SAP 是最强微调组件：UO Full +3.07，UV Full +4.11，同时推理加速 2.6 倍（569→217ms），效果和效率双丰收
DM 是高效加速器：SAP+DM 联合将推理从 217ms 降至 91ms，同时性能继续提升
MLLM 规模效应显著：LLaVA-0.5B (42.00) → Qwen-3B (43.60) → Qwen-7B (45.99)，证明方法可直接受益于更强 MLLM
跨数据集泛化突出：HICO-DET→V-COCO 达 59.91%，比第二名 BCOM (48.87) 高 11.04，超 CMMP 12.26 个百分点
候选顺序鲁棒：5 次不同排列推理 Full mAP 仅波动 ±0.02
LoRA 优于全量微调：LoRA 仅调 LLM 即达到甚至超过 Full Tuning 效果，证明 MLLM 的预训练知识值得保留

亮点与洞察¶

解耦设计是范式级创新：首次将 HOI 检测拆成完全独立的检测+识别模块，训练后换任意检测器无需重训。这让 HOI 检测"免费"享受检测器的进步（换用 Grounding-DINO 直接提分 1.41），可迁移到 scene graph generation 等组合式视觉理解任务
确定性生成巧妙弥合了生成式 MLLM 与判别式任务的鸿沟：用条件似然度代替文本生成，不改模型架构即将生成模型转为判别器。这一 trick 可直接迁移到任何需要用 MLLM 做多标签分类/排序的场景（如属性识别、动作分类）
SAP 设计优于广泛使用的 UPT：UPT 建模不同检测结果间的关系导致与检测器耦合，SAP 仅关注当前人-物对自身的空间关系和全局图像特征，保持解耦特性的同时性能更好

局限与展望¶

推理效率仍有优化空间：91ms/图≈11 FPS，对实时场景（自动驾驶、机器人）不够。可考虑 MLLM 知识蒸馏到轻量模型，或对多个人-物对做批量推理
暴力配对策略不够优雅：人-物配对数为 \(O(N^2)\)，密集场景冗余大。可学习配对先验或用空间启发式预筛选
候选交互列表需预定义：确定性生成/匹配依赖预定义的候选列表，对完全开放式交互发现（open-vocabulary interaction）的适用性有限
MLLM 部署成本高：即使最小的 Qwen2.5-VL 3B 也有 3B 参数，移动端部署需量化/蒸馏
训练数据多样性有限：仅在 HICO-DET（600 类 HOI、80 物体类别）上训练，对更开放的真实场景验证不足

评分¶

新颖性: ⭐⭐⭐⭐ 解耦框架 + 确定性生成是有实质创新的设计，但各子组件（ROIAlign、交叉注意力、LoRA）都是成熟技术
实验充分度: ⭐⭐⭐⭐⭐ 四种零样本设定 + 跨检测器 + 跨数据集 + training-free + 全监督 + 多 MLLM 消融 + 训练策略消融，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰、动机阐述到位，公式推导规范，部分 section 略有冗余
价值: ⭐⭐⭐⭐⭐ 提出 MLLM 时代 HOI 检测新范式，解耦设计具有很强的工程价值和学术影响力