Interaction-aware Representation Modeling With Co-Occurrence Consistency for Egocentric Hand-Object Parsing¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=RYwQ0xQcAh
代码: https://github.com/yuggiehk/InterFormer
领域: 第一人称视觉 / 手-物交互分割 (EgoHOS)
关键词: egocentric vision, hand-object segmentation, interaction-aware query, transformer decoder, physical consistency

一句话总结¶

针对第一人称图像中手与活动物体的像素级分割，本文提出 InterFormer，用交互边界先验来动态生成"交互感知 query"、净化解码特征，并用一条"条件共现损失"把"没检测到手就不该出现该手的物体"这一物理常识写进训练，在 EgoHOS 与跨域 mini-HOI4D 上取得 SOTA。

研究背景与动机¶

领域现状：第一人称（egocentric/FPV）视觉是具身智能、AR/VR、辅助机器人的基础能力，其中一个核心任务是 EgoHOS（Egocentric Hand-Object Segmentation）——把左右手、以及"正在被手操作的物体"（左手物 / 右手物 / 双手物）逐像素分割出来。Transformer 架构（DETR、Mask2Former、Care-Ego 等）因兼顾长程依赖与参数效率，成为该任务主流。
现有痛点：作者指出三个一直没解决的结构性缺陷。其一，query 初始化僵化——现有方法要么用可学习参数（训练后是一组静态 query），要么直接采样图像特征（引入背景噪声），都没把"手-物交互关系"显式编码进去，对场景里千变万化的活动物体适应性差。其二，解码特征"语义偏置"——逐像素语义特征只回答"这是什么物体"，回答不了"它是否正在被交互"，于是大量与交互无关的内容被卷进最终 embedding，拉低精度。其三，交互幻觉（interaction illusion）——模型会做出违反物理因果的预测，比如右手根本没被检测到，却把某物体判成"双手操作物"。
核心矛盾：通用语义表示擅长"识别物体"，但 EgoHOS 真正需要的是"识别交互关系"；二者目标错位，导致 query、特征、预测逻辑三层都偏离交互本质。
本文目标：让模型从"以物体类别为中心"转向"以手-物交互为中心"，并把物理常识硬约束进预测。
核心 idea：先用一个轻量辅助分支预测"交互边界"作为粗定位先验，再以这份先验贯穿 query 生成、特征净化与一致性损失三处，端到端地把交互关系塞进表示学习的每个环节。

方法详解¶

整体框架¶

InterFormer 在 Swin 主干 + deformable DETR 像素解码器之上，加了一个交互先验预测器（IPP）旁路，用交互边界真值监督，输出粗定位手-物接触区的"边界引导特征"。这份特征驱动两个核心模块：动态 query 生成器（DQG）用它来生成交互感知 query，双上下文特征选择器（DFS）用它在每层解码器里净化语义特征；最后再叠加条件共现（CoCo）损失约束输出的物理一致性。

flowchart LR
    I[第一人称图像] --> BK[Swin 主干 + 像素解码器]
    BK --> Fpix[多尺度像素特征 F_pix]
    BK --> IPP[IPP 交互先验预测器]
    IPP -->|交互边界监督 L_b| Fint[边界引导特征 F_int]
    Fpix --> DQG[DQG 动态 query 生成]
    Fint --> DQG
    DQG --> Q[交互感知 query Q]
    Q --> DEC[InterFormer 解码器]
    Fpix --> DFS[DFS 双上下文特征选择]
    Fint --> DFS
    DFS --> DEC
    DEC --> M[分割掩码]
    M -->|CoCo 共现一致性损失 L_co| M

关键设计¶

1. 交互先验预测器（IPP）：把"接触在哪"先粗定位出来。 大多数方法把像素特征直接丢进解码器，但"哪个物体是活动物"不能只看语义、必须看它跟手的关系。IPP 接收全局特征 \(F_g\)，用级联 U-Net 解码器加卷积头预测交互边界图 \(M_b\)，监督信号是手掩码与物体掩码膨胀后相交得到的边界真值 \(G_b\)，用二值交叉熵 \(L_b=L_{bce}(M_b,G_b)\) 训练。它输出的边界引导特征 \(F_{int}\) 不求精确分割，只提供"手-物接触区"的空间约束，是后两个模块共享的先验底座。

2. 动态 query 生成器（DQG）：让 query 跟着交互区域走，而非跟着物体类别走。 核心是两步：先"选"再"融"。把末层像素特征 \(F^L_{pix}\) 划成 \(n\times n\) 个不重叠子区域，与对齐后的边界引导特征算余弦相似度得到稠密相似图 \(S=\frac{\langle F_{int},F^L_{pix}(i,j)\rangle}{\|F_{int}\|\cdot\|F^L_{pix}(i,j)\|}\)，挑出相似度最高的 \(N\) 个区域、取其特征向量拼成中间 query \(Q_v\in\mathbb{R}^{N\times C}\)——这一步保证选中的是真正参与接触的区域而非泛语义区域。再把 \(Q_v\) 与一组可学习参数逐元素相加，得到最终 query \(Q\)。这样既保留了对场景内活动物体的动态适应（选的部分随交互区变），又靠可学习参数兜住稳定性，破解了"静态 query vs 噪声采样"的二选一困境。

3. 双上下文特征选择器（DFS）：在每层解码器里把语义特征"提纯"成交互特征。 针对语义偏置，DFS 在每个解码层同时吃像素特征 \(F^l_{pix}\) 和边界引导特征 \(F^l_{int}\)，做一次"交互引导的交叉注意力"——query \(\tilde Q\) 由边界引导特征算出，而 key/value \(\tilde K,\tilde V\) 由像素特征算出（并加可学习位置参数 \(T\) 增强鲁棒性），即 \(F^l_{cos}=\text{softmax}(\tilde Q\tilde K^\top/\sqrt{dim})\tilde V\)。让交互先验当"提问者"去检索语义特征，等于用交互信号去筛语义内容、压住交互无关噪声。随后再过一层交互增强自注意力 \(F^l_{isa}=\phi_{sa}(\cdot)\) 建模长程依赖，经残差与归一化得到 \(F^l_{inf}=\hat F^l_{pix}+\phi_{norm}(F^l_{isa}+\phi_{norm}(\phi_{drop}(F^l_{cos})))\)，作为该层解码器的 key/value 逐层迭代精修。

4. 条件共现损失（CoCo loss）：把"手在先"的物理常识写成可微约束。 作者把交互幻觉看成宏观逻辑错误——更适合用"掩码像素数（物体是否存在）"而非"逐像素平均置信度"来度量。CoCo 的规则是：若某只手的预测掩码像素数低于阈值 \(\tau\)（视为该手缺席），就惩罚与之关联的物体预测；手确实在场（像素数超 \(\tau\)）时惩罚关闭、允许正常学交互。左/右手物形式化为 \(L^{left}_{co}=(1-\mathbb{I}_{\{N_{lh}>\tau\}})\cdot N_{lo}\)、\(L^{right}_{co}=(1-\mathbb{I}_{\{N_{rh}>\tau\}})\cdot N_{ro}\)；双手物要求两手同时在场 \(L^{two}_{co}=(1-\mathbb{I}_{\{N_{rh}>\tau\wedge N_{lh}>\tau\}})\cdot N_{to}\)。总损失为 \(L=\lambda_b L_b+\lambda_{co}L_{co}+\lambda_{cls}L_{cls}+\lambda_{dic}L_{dic}+\lambda_{ce}L_{ce}\)，端到端联合优化。

实验关键数据¶

主实验（IoU ↑，节选 Overall/mIoU）¶

数据集	设置	次优方法	InterFormer	提升
EgoHOS	域内测试	Care-Ego 71.49	73.22	+1.73（双手物 +7.76）
EgoHOS	跨域测试	ANNEXE 65.36	72.82	+7.46
mini-HOI4D	OOD	ANNEXE 62.87	66.07	+3.20

域内最显著的增益来自最难的"双手物"类别（51.13→64.17 IoU），印证交互建模对复杂接触关系的价值；跨域与 OOD 的大幅领先说明交互感知表示比纯语义表示泛化性更强。

消融实验（EgoHOS 域内，mIoU / mAcc）¶

配置	IPP	DQG	DFS	CoCo	mIoU	mAcc
基线	–	–	–	–	70.72	77.48
+CoCo	–	–	–	✓	70.95	79.02
+IPP	✓	–	–	–	71.23	79.97
+IPP+DQG+DFS	✓	✓	✓	–	72.35	80.13
完整	✓	✓	✓	✓	73.22	80.68

四个组件逐项叠加均带来增益；IPP 作为先验底座对 DQG/DFS 是前提。

关键发现¶

阈值 \(\tau\) 的甜点：CoCo 损失里 \(\tau=100\) 时最优（mIoU 73.22）；过小（50）模型过敏产生虚假手检测，过大（≥150）会漏掉部分可见的手，呈现明显的单峰权衡。
模型大小-精度权衡：InterFormer 在参数量适中区间拿到最高 mIoU，优于更重的 MLLM 类方法（如 ANNEXE），在"更好-更轻"的帕累托前沿上占优。
跨域增益大于域内：域内仅 +1.73 mIoU，但跨域 +7.46、OOD +3.20，说明交互感知表示的真正价值体现在分布偏移场景——纯语义模型一旦换域就因背景/物体类别变化而崩，而以交互关系为锚的表示更稳。

实现细节¶

4×RTX 4090、总 batch 8、图像裁剪到 448×448、训练 180k 迭代；query 数量设为目标类别数（5）；损失权重 \(\lambda_b=\lambda_{co}=\lambda_{cls}=1\)、\(\lambda_{ce}=\lambda_{dic}=5\)；AdamW + 10k 步线性 warmup 到 1e-4。

亮点与洞察¶

一份先验贯穿三处：交互边界先验不是孤立的辅助任务，而是被复用到 query 生成（DQG）、特征净化（DFS）、损失约束（CoCo）三个层面，体现"以交互为中心"的统一设计哲学。
把物理常识写成损失而非后处理：CoCo loss 用像素计数这一极简代理度量"手是否在场"，直接把"手在先"的因果约束端到端可微化，而非依赖规则后处理，这种思路可迁移到其他需要物理一致性的结构化预测任务。
DQG 调和了 query 初始化的老矛盾：用"先选交互区、再融可学习参数"同时拿到动态适应性与训练稳定性。

局限与展望¶

依赖交互边界标注：IPP 需要由手/物掩码膨胀相交得到的边界监督，对无此类标注的数据集迁移成本较高。
CoCo 用像素计数近似"手是否在场"较粗糙：对手被严重遮挡、只露出极小区域的场景，固定阈值 \(\tau\) 可能误判（论文也承认 \(\tau\) 过大会漏检部分可见手）。
只做单帧分割：方法面向静态图像，未利用第一人称视频的时序连续性，扩展到视频级时序一致的手-物交互解析是自然方向。
双手/多物体复杂场景：双手物虽提升最大，但绝对 IoU（64%）相比手部（92%+）仍有差距，复杂接触关系仍有空间。

评分¶

新颖性: ⭐⭐⭐⭐ — "交互边界先验贯穿 query/特征/损失三处"的统一设计有想法，CoCo loss 用像素计数显式约束物理一致性的角度新颖。
实验充分度: ⭐⭐⭐⭐ — 域内 + 跨域 + OOD 三套 benchmark、逐组件消融、阈值超参分析齐全，对比方法覆盖 C/T/L 三类。
写作质量: ⭐⭐⭐⭐ — 三个痛点对应三个模块的叙事清晰，图表完整；公式中部分符号（DFS 内 \(\phi\) 算子）略密。
价值: ⭐⭐⭐⭐ — EgoHOS 是具身/AR 的基础能力，方法 SOTA 且开源，交互先验与一致性损失的思路对相关结构化预测任务有迁移价值。