RegFormer: Transferable Relational Grounding for Efficient Weakly-Supervised HOI Detection¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/mlvlab/RegFormer
领域: 人体理解 / 人-物交互检测 (HOI) / 弱监督
关键词: 人-物交互检测, 弱监督, 空间接地查询, 交互性评分, 零样本迁移

一句话总结¶

RegFormer 把弱监督 HOI 检测从「枚举所有人-物对、逐对裁切区域分类」改成「在 CLIP 空间特征图上把人和物的关系接地成查询、再用交互性分数门控非交互对」，只用图像级标注训练却能直接迁到实例级检测、单次主干前向、HICO-DET 上配 H-DETR 达到 38.14 mAP 反超全监督方法。

研究背景与动机¶

领域现状：HOI 检测要在图像里识别 ⟨人, 交互, 物⟩ 三元组（如 human-ride-bicycle）。全监督要为每个人-物对标注框 + 交互标签，随数据集扩大代价不可承受，于是弱监督 HOI 兴起——训练只给图像级标签（图里出现了哪些 HOI 三元组），不给人/物的定位。但没有定位信号，弱监督方法只能先用现成检测器产出一堆人/物候选，再把所有人-物对送进一个交互分类模块去判。

现有痛点：这个「检测器 + 配对分类」范式有两个老毛病。一是慢：主流做法对每个候选对裁出 union region 再各跑一次前向，候选数一多前向次数 \(\tilde N_h\times\tilde N_o\) 爆炸（Fig.1-A）。即便改用 RoI-Align 从主干特征图一次性抽 union 特征，union 区域又常混进无关实例，把某一对的分类带偏（Fig.1-B），泛化差。二是假阳性多：弱监督下所有人-物组合都被拿去训交互预测，模型会对那些根本没在交互的组合也产生强响应，制造大量假阳性，污染实例级推理。

核心矛盾：要么用 union 区域特征（高效但不分人/物、易被无关区域误导），要么用检测器的实例特征（精确但把分类器和检测器死死绑在一起，换检测器就得重训）——效率、可迁移性、精度三者难以兼得。

本文目标：做一个轻量、通用的交互分类模块，既能在图像级监督下学好交互推理，又能无需额外训练地迁到实例级，且对检测器无关。

核心 idea：用「空间接地的 HO 查询」代替「穷举三元组查询」，把交互所需的空间线索从特征图里聚合进查询；再加一条「交互性评分」分支当门控压住非交互对。这两样都是位置感知的，于是推理时只要用检测器给的实例框去约束查询构建与评分区域，图像级学到的能力就能零样本搬到实例级。

方法详解¶

整体框架¶

RegFormer 的底座是 ML-Decoder（一个 cross-attention 的多标签分类器，用 HOI 类的文本 embedding 当 query）。但 RegFormer 不再像 ML-Decoder 那样一次性塞进所有 HOI 类的 query，而是改成顺序式 HO→I：先在「成对实例编码器」里按人-物类对（HO）构造 query，再在「交互解码器」里为每个 HO 对预测它的交互类别（I）。这一步把组合空间从「所有三元组」降到「人类×物类对」，让大量实例对也能低开销处理。

训练时（图像级）：从冻结的视觉主干（CLIP / DINOv2）拿空间特征图 \(x\)，成对实例编码器用 patch 级相似度算出人/物各自的 patch 重要度 \(\alpha\)，按权重聚合特征得到空间接地的 HO 查询 \(q^{ho}\)；交互解码器让 \(q^{ho}\) 与 \(x\) 做 cross-attention，输出交互分数 \(\hat s^a\)；同时一条交互性感知分支为每个人-物对算出门控分 \(r^{ho}\)，与 \(\hat s^a\) 相乘成最终 \(\hat s^{hoi}\)，用 focal loss 接图像级三元组标签。

推理时（实例级）：检测器给出人/物实例框后，对每个实例造一张 region-aware mask，把 HO 查询的聚合区域和交互性评分都约束到该实例框内——其余流程与训练时完全一致，于是无需再训就完成实例级 HOI 检测，且全程只需一次主干前向（Fig.1-A 标注约 ×128 加速）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["冻结视觉主干<br/>空间特征图 x"] --> B["顺序式 HO→I 框架<br/>按人-物类对建 query 再判交互"]
    B --> C["空间接地查询<br/>patch 重要度加权聚合 → q_ho"]
    C --> D["交互解码器<br/>q_ho 与 x 做 cross-attention → 交互分数 s_a"]
    A --> E["交互性感知学习<br/>patch 交互性加权 → 门控分 r_ho"]
    E -->|"s_hoi = s_a · r_ho^γ"| D
    D --> F["训练：仅图像级三元组 + focal loss"]
    F -->|零样本迁移| G["实例级零样本迁移<br/>region-aware mask 约束查询/评分区域"]
    G --> H["实例级 HOI 检测<br/>单次主干前向"]

关键设计¶

1. 顺序式 HO→I 框架：把穷举三元组 query 拆成「先配人物类对、再判交互」

ML-Decoder 把所有 HOI 类（如「human ride bicycle」「human hold cup」）的文本 embedding 一股脑当 query，query 数等于 HOI 类数，再叠加候选对枚举就极贵。RegFormer 借鉴顺序解码思路把它拆成两段：先按人-物类对（HO）组织 query，每个 HO 对只解出它对应的交互类（I）。形式上，给定文本编码器 \(T\)，HO query 由人/物类的语义先验初始化、再注入空间线索（见设计 2），交互解码阶段做 \(\bar q^{ho}_k=\text{Att}(q^{ho}_k,x,x)\)、\(\hat s^a_k=\sigma(\cos(P_a(\bar q^{ho}_k),e^a))\)。好处是组合规模从「三元组数」压到「人类×物类对」，海量实例对也能在单次前向里处理，这是后面效率优势的结构基础。

2. 空间接地查询：用 patch 级相似度把「谁在哪」聚合进 HO query

纯文本初始化的 query 没有空间信息，没法在不重训的情况下注入框坐标等局部先验，图像级到实例级的迁移就断了。RegFormer 改成从特征图聚合空间线索：先在每个 patch \(x(p)\) 上算它与人/物类文本 embedding 的余弦相似度（各自投到共享空间），\(s^h(p)=\cos(P^h_v(x(p)),P^h_t(e^h))\)、\(s^o_k(p)=\cos(P^o_v(x(p)),P^o_t(e^o_k))\)；再沿 patch 维做带温度的 softmax 得到 patch 重要度 \(\alpha^h(p)=\frac{\exp(s^h(p)/\tau_p)}{\sum_{p'}\exp(s^h(p')/\tau_p)}\)（物体同理）；最后按重要度加权聚合 \(q^h=\sum_p\alpha^h(p)x(p)\)、\(q^o_k=\sum_p\alpha^o_k(p)x(p)\)，拼接后过投影层 \(q^{ho}_k=P_q([q^h;q^o_k])\)。这样 query 天生带着「人和物大概出现在哪、长什么样」的局部表征，模型是在隐式学交互所需的空间关系，而不是死记某个检测器的实例 embedding，迁移时才不会被检测器绑架。

3. 交互性感知学习：学一个门控分，把非交互对在训练里就压下去

弱监督下所有人-物类对都被拿去训交互预测，无论该物体是否真在图里，模型容易对无关区域产生虚假响应、学坏。RegFormer 引入交互性评分：对 patch 级相似度过 sigmoid 得 patch 交互性 \(\hat s^h(p)=\sigma(s^h(p))\)，再用 patch 重要度加权求和得到图像级交互性 \(r^h=\sum_p\alpha^h(p)\hat s^h(p)\)（物体同理），人-物对的成对交互性取几何平均 \(r^{ho}_k=(r^h r^o_k)^{0.5}\)。它以乘性门控接到交互分数上：\(\hat s^{hoi}_k=\hat s^a_k\,(r^{ho}_k)^{\gamma}\)，再用 focal loss \(\mathcal L=\mathcal L_{\text{focal}}(\hat s^{hoi},c^{hoi})\) 接图像级标签。由于 \(r\) 是从该对相关的空间区域算出来的，模型既学会压低无关区域响应、又学会突出交互相关区域，等于在判交互类别之前先做了一道筛选，假阳性被门在外面。消融里它单独带来最大增益。

4. 实例级零样本迁移：region-aware mask 把图像级线索约束到具体实例

要把上面图像级的能力搬到实例级，RegFormer 不加训练，只加一个 mask。对检测器给的第 \(i\) 个人实例，定义指示掩码 \(m^{\tilde h}_i(p)=1\)（\(p\) 在框内）否则 0，物体同理；把掩码的对数加进相似度再做 softmax，得到实例感知的 patch 重要度 \(\alpha^{\tilde h}_i(p)=\frac{\exp((s^h(p)+\log m^{\tilde h}_i(p))/\tau_p)}{\sum_{p'}\exp((s^h(p')+\log m^{\tilde h}_i(p'))/\tau_p)}\)——框外 patch 因 \(\log 0=-\infty\) 被彻底压掉。用它替换设计 2 里的 \(\alpha\) 就得到只聚合该实例区域的 HO 查询，后续解码不变。交互性也同样实例化，并刻意拆成局部 × 掩码全局两项：\(r^{\tilde h}_i=\underbrace{(\sum_p\alpha^{\tilde h}_i(p)\hat s^h(p))}_{\text{局部交互性}}\underbrace{(\sum_p\alpha^h(p)m^{\tilde h}_i(p))}_{\text{掩码全局交互性}}\)。这是因为只看局部时，某些非交互实例会因强语义对齐被打出虚高分（Fig.3 第三列 0.768）；引入图像级重要度在该框内的掩码全局项后，能在全局语境里放大交互/非交互区域的反差，把虚高分纠正回 0.01。最终推理再融合检测置信度：\(\tilde s^{hoi}_{ij}=\tilde s^a_{ij}\cdot(r^{\tilde{ho}}_{ij})^{\gamma}\cdot(\tilde s^h_i\tilde s^o_j)^{\lambda}\)。因为训练时是「不看检测器 proposal」的 detector-agnostic 方式，迁移时反而避免了检测器偏置与误检的误差传播，对罕见类更友好。

损失函数 / 训练策略¶

只用图像级 HOI 三元组标签，单一 focal loss \(\mathcal L_{\text{focal}}(\hat s^{hoi},c^{hoi})\)，其中 \(\hat s^{hoi}_k=\hat s^a_k(r^{ho}_k)^\gamma\) 把交互分数与交互性门控相乘。视觉与文本编码器全程冻结以保留预训练表征。默认配置：视觉 DINO-B、文本 CLIP-B、检测器 DETR。

实验关键数据¶

主实验¶

HICO-DET 上与全/弱监督方法对比（Full / Rare / Non-rare mAP）：

方法	监督	检测器	视觉/文本主干	Full	Rare	Non-rare
QPIC	全	DETR	RN50 / —	29.07	21.85	31.23
GEN-VLKT	全	DETR	RN50 / CLIP-B	33.75	29.25	35.10
HOICLIP	全	DETR	CLIP-B / CLIP-B	34.69	31.12	35.74
Weakly HOI-CLIP	弱	Faster R-CNN	CLIP-RN50 / CLIP-RN50	22.89	22.41	23.03
RegFormer	弱	Faster R-CNN	CLIP-RN50 / CLIP-RN50	25.08	25.76	24.88
RegFormer	弱	Faster R-CNN	DINO-B / CLIP-B	33.33	35.04	32.82
RegFormer	弱	DETR	DINO-B / CLIP-B	32.90	35.18	32.21
RegFormer	弱	H-DETR	DINO-B / CLIP-B	38.14	40.31	37.49

同主干同检测器下，RegFormer 比之前弱监督 SOTA（Weakly HOI-CLIP）高 +2.19 Full；换更强主干后持续提升，配 H-DETR + DINO-B 达 38.14，反超全监督的 HOICLIP（34.69），且在罕见类（Rare 40.31）上尤其强——而这正是全监督方法的弱区。V-COCO 上 RegFormer（DETR）AProle2 达 57.5，远高于 Weakly HOI-CLIP 的 48.1。

消融实验¶

组件级消融（Tab.1，DINO-S 主干；SG=空间接地查询，IA=交互性评分；Forward 为主干前向次数）：

配置	HICO 分类 mAP	HICO-DET Full	Forward
(a) ML-Decoder 基线	52.6	17.49	\(\tilde N_h\tilde N_o\)
(b) +HO→I	53.7	17.63	\(\tilde N_h\tilde N_o\)
(c) +HO→I +SG	54.4	22.08	1
(d) +HO→I +IA	56.2	23.38	1
(e) 完整 (HO→I+SG+IA)	57.6	30.01	1

交互性评分内部拆解（Tab.5，HICO-DET，DINO-S）：

配置	Full	Rare	Non-rare
无交互性学习	22.08	23.91	21.53
仅掩码全局（无 IA 学习）	26.02	26.81	25.79
IA 学习 + 仅局部	23.44	25.77	22.75
IA 学习 + 局部+全局	30.01	32.05	29.39

关键发现¶

三组件互补，IA 贡献最大：从基线 17.49 到完整 30.01（Full +12.52）。其中 SG 让检测从 17.63→22.08 并把前向次数从 \(\tilde N_h\tilde N_o\) 降到 1（既提点又提速），IA 再从 23.38→30.01 靠压制非交互对显著提精度，两者叠加才最大化互补。
局部与全局交互性缺一不可：只用局部只有 23.44（易被强语义对齐打出虚高分），只用掩码全局 26.02，两者合并才到 30.01——局部给「这一对专属的定位线索」，全局负责「在场景语境里压非交互对」。
零样本与可迁移性强：RF-UC 未见组合上 RegFormer 31.53，比弱监督基线 OpenCat（用了 75 万图大规模预训练）高 +10.07，甚至超过多数全监督方法；detector-agnostic 训练让它能插到 Faster R-CNN / DETR / H-DETR 任意检测器上，越强的检测器收益越大（H-DETR 把 Full 推到 38.14）。
效率优势来自单次前向：实例对数增加时推理时间几乎不变（Fig.1-A 标约 ×128 加速），而 ML-Decoder 因逐对裁切前向急剧变慢。

亮点与洞察¶

「空间接地」把可迁移性问题转成特征聚合问题：不靠检测器实例特征、而靠 patch 重要度从冻结特征图聚合空间线索，既保留 CLIP/DINO 的语义先验，又让 query 带定位，是 detector-agnostic + 零样本迁移得以成立的根。
乘性门控 \(\hat s^a(r^{ho})^\gamma\) 是简洁有效的去假阳性手段：把「这对到底在不在交互」单独学成一个分数再门控交互类别，比把判别压力全压给分类器更稳，消融里贡献最大。
局部 × 掩码全局的对照很有启发：作者用 Fig.3 直观展示「局部分数会被强语义对齐骗高、全局上下文能纠回」，这个「单一信号易被语义对齐误导、需全局对照」的观察可迁移到其它弱监督定位/打分任务。
训练不看 proposal 反而更鲁棒：detector-agnostic 训练规避了检测器偏置与误检误差传播，解释了为何在罕见类上反超全监督。

局限与展望¶

推理仍依赖外部检测器，人/物漏检会直接限制上限（虽然 detector-agnostic 缓解了误差传播，但没消除）。
交互性门控用幂次 \(\gamma,\lambda\) 与温度 \(\tau_p\) 调控，论文正文未给敏感性分析（置于补充材料），实际部署的超参鲁棒性待验证。
仍只在 V-COCO / HICO-DET 这类闭集 benchmark 上评，开放词表/真实长尾场景下的表现需进一步检验。
patch 级相似度依赖 CLIP/DINO 的对齐质量，主干语义对齐差时空间接地可能失准。

评分¶

新颖性: ⭐⭐⭐⭐ 空间接地 query + 交互性门控 + 零样本迁移到实例级的组合设计清晰且有针对性
实验充分度: ⭐⭐⭐⭐ HICO-DET/V-COCO/零样本三套基准、多主干多检测器、组件与交互性双重消融，效率分析在 Fig 较粗
写作质量: ⭐⭐⭐⭐ 公式与图示（Fig.3 交互性可视化）把机制讲清，部分超参细节放补充
价值: ⭐⭐⭐⭐ 弱监督逼近/反超全监督且高效、检测器无关，对降低 HOI 标注成本有实际意义