跳转至

RegFormer: Transferable Relational Grounding for Efficient Weakly-Supervised Human-Object Interaction Detection

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/mlvlab/RegFormer
领域: 人体理解 / 弱监督 / HOI 检测
关键词: 人物交互检测, 弱监督, 空间 grounding, 交互性打分, 免训练迁移

一句话总结

RegFormer 是一个轻量的交互识别模块:只用图像级标签训练时,它把人–物对查询构造成"空间 grounded"表示并引入交互性打分作为门控;推理做实例级 HOI 检测时,只需用检测框给查询和打分加一层区域掩码,无需额外训练即可从图像级迁移到实例级,比此前弱监督方法大幅领先、并逼近全监督,同时推理速度快 ~128×。

研究背景与动机

领域现状:人物交互(HOI)检测要在图像里定位人和物、并判断它们的交互,输出 ⟨human, interaction, object⟩ 三元组。全监督需要给每个人–物对标注框和交互类,标注成本随数据规模爆炸。弱监督只用图像级标签(图里出现了哪些 HOI 三元组类),不标人/物位置,因此可扩展。

现有痛点:弱监督没有定位信号,主流做法只能先用现成检测器枚举所有人–物候选对,再交给一个交互分类模块逐对推理。这条路线有两个硬伤:(1) 候选对数量是 \(\tilde N_h \times \tilde N_o\),传统做法对每一对都裁剪 union 区域、各跑一次前向,计算量巨大,场景越密越慢;(2) union 区域常包含无关实例,导致对特定人–物对的分类被误导,产生大量假正例。后来有人用 RoI-Align 从骨干特征图一次性取 union 特征(单次前向),但 union 区域仍混入无关区域、泛化差;也有人直接用检测器的实例特征,但这样分类器和检测器强耦合,换检测器就得重训。

核心矛盾:弱监督下既要"高效处理海量候选对",又要"判别性地把非交互对滤掉",而图像级标签里根本没有定位信息——模型无从知道哪块区域对应哪个人/物。

本文目标:做一个轻量、通用的交互分类模块,能在单一框架里统一图像级(HOI 分类)和实例级(HOI 检测)推理,并能不重训就迁移过去。

切入角度:作者观察到,只要让查询自己"隐式地"学到人和物的空间线索,图像级学到的推理能力就能直接搬到实例级——关键是把空间信息注入查询构造和一个可监督的交互性信号里,而不是依赖外部检测框去训练。

核心 idea:用"空间 grounded 的人–物查询 + 交互性门控"代替"枚举 union 区域裁剪",让模型在图像级监督下学会聚焦交互区域;推理时只用检测框给查询/打分加区域掩码即可免训练迁移。

方法详解

整体框架

RegFormer 基于 ML-Decoder(一种用类别文本嵌入做 query 的多标签分类器)改造,把"一次性枚举所有 HOI 三元组 query"改成顺序式 HO→I:先在 pairwise instance encoder 里为每个"人类别–物类别"对构造查询 \(q^{ho}_k\),再送进 interaction decoder 预测这一对的交互类别分数 \(\hat s^a_k\)。与此并行,模型为每个人–物对算一个交互性分数 \(r^{ho}_k\),作为门控乘到交互分数上、并接受图像级 HOI 标签的显式监督。训练全程视觉/文本编码器(CLIP、DINOv2)冻结。

推理做实例级检测时,只引入一处改动:给定检测器输出的人/物实例框,用区域掩码 \(m(p)\) 把查询构造和交互性打分都约束到各自实例区域内,于是图像级模块直接变成实例级检测器,不需要任何额外训练

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像 + 人/物类别文本"] --> B["顺序式 HO→I 解码<br/>先构人–物对查询再判交互"]
    B --> C["空间 grounded 查询<br/>patch 相似度→重要性→聚合"]
    C --> D["交互性门控打分<br/>抑制无关区域的显式监督"]
    D -->|训练: 图像级监督| E["HOI 分类分数 ŝ_hoi"]
    D -->|推理: 检测框| F["区域掩码免训练迁移<br/>实例查询+局部/全局交互性"]
    F --> G["实例级 HOI 检测三元组"]

关键设计

1. 顺序式 HO→I 解码:把"枚举三元组"换成"先配对再判交互"

传统 ML-Decoder 用全部 HOI 类别(如"human ride bicycle")的文本嵌入当 query,一次性预测,候选对一多就吃不消。RegFormer 改成两步顺序结构:先按"人类别–物类别"对(HO)分组生成查询,再在解码器里只为每个 HO 对预测它的交互类别(I),即 \(HO \to I\)。这样查询数从"人数×物数×交互数"降到"人数×物数",能在不显著增加开销的前提下处理大量实例对——这是后面"单次前向、128× 提速"的结构基础。

2. 空间 grounded 查询:让查询自己学到人和物在哪里

弱监督最大的缺口是查询里没有空间信息。作者不靠外部框,而是用patch 级相似度把空间线索注入查询。先把骨干特征图上每个 patch 特征 \(x(p)\) 和"人"文本嵌入 \(e^h\)、第 \(k\) 类物体文本嵌入 \(e^o_k\) 投到共享空间算余弦相似度,得到 objectiveness 分数 \(s^h(p)\)\(s^o_k(p)\)(式 3);再沿 patch 维做 softmax 得到 patch 重要性权重:

\[\alpha^h(p)=\frac{\exp(s^h(p)/\tau_p)}{\sum_{p'}\exp(s^h(p')/\tau_p)},\quad \alpha^o_k(p)=\frac{\exp(s^o_k(p)/\tau_p)}{\sum_{p'}\exp(s^o_k(p')/\tau_p)}\]

然后按权重聚合 patch 特征得到人/物的空间表示 \(q^h=\sum_p\alpha^h(p)x(p)\)\(q^o_k=\sum_p\alpha^o_k(p)x(p)\),拼接后过投影层 \(P_q\) 得到空间 grounded 的人–物查询 \(q^{ho}_k=P_q([q^h;q^o_k])\)。这一步让查询"长在"图里人和物真正出现的位置上,把图像级推理能力变得可迁移——消融里它单独带来分类 +1.8 mAP、检测 Full +4.59。

3. 交互性门控打分:用一个可监督的信号压住无关区域

弱监督下所有人–物类别对都被拿去训练交互预测,哪怕该物体根本没出现在图里,模型也会对无关区域产生虚假响应、污染优化。作者引入交互性打分:先对 patch 级相似度过 sigmoid 得到 patch 级交互性 \(\hat s^h(p)=\sigma(s^h(p))\)\(\hat s^o_k(p)=\sigma(s^o_k(p))\),再用 patch 重要性权重加权求和得到图像级交互性 \(r^h=\sum_p\alpha^h(p)\hat s^h(p)\)\(r^o_k=\sum_p\alpha^o_k(p)\hat s^o_k(p)\),人–物对交互性取几何平均 \(r^{ho}_k=(r^h r^o_k)^{0.5}\)。它作为门控乘进最终 HOI 分数并接受 focal loss 监督:

\[\mathcal{L}=\mathcal{L}_{\text{focal}}(\hat s^{hoi},c^{hoi}),\quad \hat s^{hoi}_k=\hat s^a_k\,(r^{ho}_k)^{\gamma}\]

因为交互性是从"与该人–物对相关的空间区域"算出来的,模型既会抑制无关区域、又会突出交互相关区域。这是涨点主力——加入它分类 +3.6 mAP,检测 Full 从 23.38 跳到 30.01。

4. 区域掩码的免训练迁移:检测框只在推理时介入查询与打分

训练完成后迁到实例级检测,作者不重训,而是给每个检测到的人/物实例框做区域掩码 \(m(p)\)(框内为 1、框外为 0),并把掩码的对数加进 patch 重要性的 logit 里,得到实例级 patch 重要性 \(\alpha^{\tilde h}_i(p)\)\(\alpha^{\tilde o}_j(p)\)(式 9),从而把查询构造约束到这一对实例的区域内,得到实例级查询 \(\tilde q^{ho}_{ij}\),后续解码与训练时完全一致。交互性也同样实例化,并且作者发现只用框内"局部交互性"有时会因强语义对齐给非交互实例打高分,于是额外加一项masked global interactiveness(用图像级 patch 重要性在框内的响应),把局部与全局相乘(式 10),全局项能放大交互/非交互区域的对比、有效压住非交互对。最终预测还会乘上检测器置信度:\(\tilde s^{hoi}_{ij}=\tilde s^a_{ij}\cdot(\tilde r^{ho}_{ij})^{\gamma}\cdot(\tilde s^h_i\tilde s^o_j)^{\lambda}\)。由于训练阶段不碰检测框,模块是detector-agnostic的,可即插任意检测器、避免检测器偏差和误差传播。

损失函数 / 训练策略

训练目标是图像级 HOI 多标签 focal loss(式 8),监督信号是门控后的 HOI 分数 \(\hat s^{hoi}_k=\hat s^a_k(r^{ho}_k)^{\gamma}\)。视觉编码器(CLIP-RN50 / DINOv2 ViT-S/B)与文本编码器(CLIP-RN50 / ViT-B)全程冻结,只训练查询投影、解码器等轻量参数;默认配置用 DINO-B + CLIP-B + DETR。\(\gamma\)\(\lambda\) 为门控/检测分数的缩放因子(具体取值见原文补充材料,⚠️ 以原文为准)。

实验关键数据

主实验

HICO-DET 上与全监督/弱监督方法对比(mAP,节选):

方法 监督 检测器 视觉骨干 Full Rare Non-rare
Weakly HOI-CLIP Faster R-CNN CLIP-RN50 22.89 22.41 23.03
RegFormer Faster R-CNN CLIP-RN50 25.08 25.76 24.88
RegFormer Faster R-CNN DINO-B 33.33 35.04 32.82
RegFormer DETR DINO-B 32.90 35.18 32.21
RegFormer H-DETR DINO-B 38.14 40.31 37.49
ADA-CM(全监督) DETR CLIP-B 33.80 31.72 34.42
HOICLIP(全监督) DETR CLIP-B 34.69 31.12 35.74

同骨干下比此前弱监督 SOTA(Weakly HOI-CLIP)Full +2.19;换强骨干后逼近甚至在 Rare 上超过全监督方法。V-COCO 上 RegFormer 用 DETR 达 57.5 AProle2,刷新弱监督 SOTA(此前 Weakly HOI-CLIP 48.1)。

消融实验

组件逐项消融(HICO 分类 mAP / HICO-DET 检测,DINO-S 骨干):

配置 HO→I SG IA HICO HICO-DET Full
(a) ML-Decoder 基线 52.6 17.49
(b) +顺序解码 53.7 17.63
(c) +空间 grounded 查询 54.4 22.08
(e) 完整模型 57.6 30.01

交互性打分内部局部/全局消融(HICO-DET):

局部 掩码全局 Full Rare Non-rare
22.08 23.91 21.53
23.44 25.77 22.75
30.01 32.05 29.39

关键发现

  • 交互性打分贡献最大:在检测上把 Full 从 22.08(仅 SG)拉到 30.01,是涨点主力;它通过抑制无关区域、突出交互区域来提升细粒度推理。
  • 局部 + 全局必须配合:只用局部交互性 Full 仅 23.44,加上 masked global 才到 30.01——局部给"对特异"的定位线索,全局负责放大对比、压住非交互对。
  • 零样本泛化强:RF-UC 未见组合上比弱监督基线 OpenCat 高出 10.07 mAP,而 OpenCat 还额外用了 75 万张图做大规模预训练,RegFormer 没用却更强。
  • 效率:随候选对数增长,RegFormer 推理时间几乎不变(单次骨干前向),而 ML-Decoder 急剧变慢,作者报告约 128× 提速。
  • 密集场景受益于显式交互性:稀疏场景仅靠空间 grounding 就能定位,密集多人场景必须靠交互性监督才能一致定位所有交互个体。

亮点与洞察

  • 把"空间线索"做成可学查询而非外部框:用 patch-文本相似度 + softmax 聚合,让查询天然带空间信息,绕开了"要么裁 union 区域低效、要么绑定检测器要重训"的两难。
  • 免训练迁移的巧思:训练阶段完全不碰检测框,推理时只用区域掩码加进 patch 重要性的 logit,一行掩码就把图像级模块变成实例级检测器,detector-agnostic、可即插任意检测器。
  • 局部 vs 掩码全局交互性的对照很有启发:强语义对齐会让非交互实例的局部分数虚高,引入"全局上下文里的对比"来纠偏,这个思路可迁移到其他弱监督定位/grounding 任务里去抑制假正例。
  • 门控用几何平均 \(r^{ho}=(r^h r^o)^{0.5}\) 而非加法,保证人和物要交互性高才放行,天然偏向"两端都对"的对。

局限与展望

  • 仍依赖现成目标检测器提供实例框,检测器漏检/错检会限制上限(虽然训练时解耦减轻了误差传播,但推理仍受检测质量约束)。
  • 强烈依赖冻结的 CLIP/DINOv2 文本-视觉对齐质量:patch 相似度若对某些罕见类别对齐不好,空间 grounding 会失准;论文也显示骨干越强(DINO-B、CLIP-B)收益越大,反过来说弱骨干下空间线索可能不够。
  • 交互性门控的缩放因子 \(\gamma\)\(\lambda\) 是超参,跨数据集的鲁棒性、敏感性正文未充分展开(⚠️ 细节见补充材料)。
  • 只在 V-COCO / HICO-DET 两个标准 benchmark 验证,更开放词表、更复杂多人多物场景下的表现待考。

相关工作与启发

  • vs ML-Decoder(基座):ML-Decoder 用全 HOI 类别文本 query 一次性预测,对每个 union 区域裁剪前向、低效且易被无关区域误导;RegFormer 改顺序式 HO→I + 空间 grounded 查询 + 交互性门控,单次前向、更判别,分类 +5.0 mAP、检测 Full +12.52。
  • vs Weakly HOI-CLIP(弱监督 SOTA):同为 CLIP 弱监督,但前者仍靠 union 区域特征;RegFormer 把空间线索注入查询并显式监督交互性,同骨干 Full +2.19,换强骨干后差距更大。
  • vs 直接用检测器实例特征的方法:那类设计把分类器和检测器强耦合、换检测器要重训;RegFormer 训练时不碰检测框,推理用掩码迁移,detector-agnostic 可即插换。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把空间 grounding 注入查询 + 交互性门控 + 区域掩码免训练迁移,三件套自洽且解决弱监督核心缺口
  • 实验充分度: ⭐⭐⭐⭐⭐ 两 benchmark、多检测器/骨干、零样本、效率、逐组件消融都覆盖
  • 写作质量: ⭐⭐⭐⭐ 方法叙述清晰,公式 OCR 后略乱但逻辑完整
  • 价值: ⭐⭐⭐⭐⭐ 弱监督即逼近全监督 + 128× 提速 + 即插任意检测器,实用性强