Hand Trajectory Fusion for Egocentric Natural Language Query Grounding¶

会议: CVPR 2026
arXiv: 2606.02962
代码: 无（未公开）
领域: 视频理解 / 第一人称视觉 / 多模态时序定位
关键词: 第一人称视频、NLQ时序定位、手部轨迹、跨注意力融合、自适应门控

一句话总结¶

针对第一人称视频自然语言查询（NLQ）定位任务，本文提出把稀疏的手部骨架序列编码成"运动学特征"，再用跨注意力 + 自适应门控注入到冻结的视频-文本主干里，在 Ego4D NLQ v2 上对"手物交互"和"数量/状态"这两类与操作密切相关的查询分别带来 +2.54 和 +4.32 的 [email protected] 提升。

研究背景与动机¶

领域现状：第一人称视频自然语言查询（NLQ）定位要解决的是：给定一段长第一人称视频和一句自由文本查询（如"我把红螺丝刀放哪了？"），模型要预测出查询所指事件发生的时间区间 \([t_s, t_e]\)。当前 SOTA（如 GroundNLQ）的主流套路是：用大规模预训练视频编码器（InternVideo、EgoVLP）提视频特征，再和 CLIP 文本特征做融合，本质上是"语义外观匹配"。

现有痛点：纯外观匹配对很多查询其实不够。作者统计发现，Ego4D 的 13 类查询模板里有 5 类（"我把 X 放哪了"、"我往 X 里放了什么"、"我对 X 做了什么动作"、"X 处于什么状态"、"我的物体 X 在哪"）的答案窗口本质上就是一次"手-物操作动作或其直接结果"——这类操作中心查询（manipulation-centric queries）在 train+val 中占 7,529/18,315，约 41%。换句话说，近一半查询的答案就发生在"伸手、抓取、放置"这种手部动作的瞬间，但现有方法完全没用手部信息。

核心矛盾：手部信号虽然有用，却极其稀疏。Mediapipe 这类手骨架提取器每只手能给 21 个关键点，但在 Ego4D 上平均只有 41% 的帧能检测到手（其余因为长时间空闲、运动模糊、手出画面而缺失）。相比之下，注视（gaze）是每帧一个稠密标量、物体检测是每帧若干框，而手部轨迹充满时间空洞，这让轨迹编码和与视频-文本的融合都变得棘手。

本文目标：把手部轨迹作为一种新的辅助模态引入 NLQ 定位，并解决其"稀疏性"带来的编码和融合难题。

切入角度：操作事件的语义来自"静态手型如何随时间变化"——靠近、接触、释放，这正是时序上最有判别力的瞬间。因此作者把手部建模拆成"空间聚合（看一帧内的手型）+ 时间建模（看手型怎么演变）"两个阶段，并显式屏蔽掉没检测到手的帧。

核心 idea：用一个轻量轨迹编码器把稀疏手骨架转成视频对齐的运动学特征，再用"跨注意力 + 内容自适应门控"把它选择性地注入冻结的视频-文本表征，让轨迹信号只在该出力时出力。

方法详解¶

整体框架¶

整个系统冻结预训练主干、只训练两个新模块，把"手部运动学"作为外挂模态接进 NLQ 定位流水线。输入是第一人称视频片段 + 文本查询 + 手骨架序列，输出是答案时间区间 \([t_s, t_e]\)。共 5 个模块：视频编码器用冻结的 InternVideo + EgoVLP 把视频编成视频 token \(\mathbf{E_v}\)；文本编码器用冻结的 CLIP 把查询编成文本 token \(\mathbf{E_t}\)；可训练的轨迹编码器把手骨架序列转成视频对齐的运动学特征 \(\mathbf{E_h}\)；可训练的轨迹融合模块通过跨注意力 + 自适应门控把 \(\mathbf{E_h}\) 和 \(\mathbf{E_t}\) 注入 \(\mathbf{E_v}\)，得到多模态表征 \(\mathbf{E_o}\)；最后时序片段预测头从 \(\mathbf{E_o}\) 预测答案区间。两个可训练模块（轨迹编码器 + 轨迹融合）合计参数极少，主干全程冻结。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    V["视频片段"] --> VE["视频编码器<br/>冻结 InternVideo+EgoVLP → Ev"]
    Q["文本查询"] --> TE["文本编码器<br/>冻结 CLIP → Et"]
    H["手骨架序列<br/>稀疏 + 缺帧"] --> TENC["轨迹编码器<br/>空间聚合+时间建模 → Eh"]
    VE --> FUSE["轨迹融合<br/>跨注意力+自适应门控 → Eo"]
    TE --> FUSE
    TENC --> FUSE
    FUSE --> PRED["时序片段预测<br/>输出区间 ts, te"]

关键设计¶

1. 轨迹编码器：把稀疏手骨架拆成"空间聚合 + 时间建模"两阶段、并显式屏蔽缺帧

痛点是手骨架既稀疏又结构复杂——每帧最多 \(L = 2 \times 21 = 42\) 个关键点（左右手各 21），还有大量帧根本没检测到手。作者用一个时空 transformer 把问题分解：空间阶段先把一帧内的关键点聚成一个描述子，时间阶段再看这个描述子怎么跨帧演变，这正对应操作事件"靠近-接触-释放"的语义结构。具体地，每个关键点的原始通道 \(\mathbf{r}_{t,\ell} = (x,y,z,v)\)（3D 位置 + 可见性）经过逐关键点的可学习投影编成 token：\(\mathbf{x}_{t,\ell} = \mathbf{W}_{r,\ell}\,\mathbf{r}_{t,\ell} + \mathbf{p}_\ell\)，其中 \(\mathbf{W}_{r,\ell}\) 对每个"(手,关节)"对单独学一套投影，\(\mathbf{p}_\ell\) 是位置编码。空间聚合用一个共享可学习 query \(\mathbf{q}\) 对该帧 \(L\) 个关键点做跨注意力 \(\mathbf{s}_t = \mathrm{CrossAttn}(\mathbf{Q}{=}\mathbf{q}, \mathbf{K}{=}\mathbf{V}{=}\{\mathbf{x}_{t,\ell}\})\)，让模型自动挑出最有信息量的关节（如抓取时的指尖），而不是用固定的池化规则。时间阶段把 \(\{\mathbf{s}_t\}\) 过自注意力再线性投影得 \(\mathbf{E}_h = \mathrm{Proj}(\mathrm{SelfAttn}(\{\mathbf{s}_t\}))\)。关键是两个阶段都用 key-padding mask 把没检测到手的帧排除掉，避免空洞污染注意力——这是直接针对 41% 检出率这个痛点设计的

2. 轨迹融合：用视频 token 去 query 辅助模态、并给每条支路配独立的内容自适应门控

痛点是融合时既要保住预测头依赖的"视频-文本对齐"，又要让模型自己学"该多大程度信任轨迹支路"（毕竟一半帧没手）。作者让视频 token \(\mathbf{E_v}\) 作为 query 去分别查询轨迹流和文本流：\(\mathbf{E_{vh}} = \mathrm{CrossAttn}(\mathbf{E_v}, \mathbf{E_h})\)，\(\mathbf{E_{vt}} = \mathrm{CrossAttn}(\mathbf{E_v}, \mathbf{E_t})\)，得到两路视频对齐的增强表征。融合时不是均匀相加，而是各乘一个学习的标量门控再做残差：每个门由一个轻量 MLP 作用于该支路跨注意力输出的时间平均得到，\(g_h = \sigma(\mathrm{MLP}_h(\bar{\mathbf{e}}_{vh}))\)、\(g_t = \sigma(\mathrm{MLP}_t(\bar{\mathbf{e}}_{vt}))\)，最终

\[\mathbf{E_v}' = \mathbf{E_v} + g_h \cdot \mathbf{E_{vh}} + g_t \cdot \mathbf{E_{vt}}\]

由于每个门只读自己那条支路，网络可以独立地压低某一支——比如当手大多没检测到、\(\mathbf{E_{vh}}\) 几乎没信号时，把 \(g_h\) 调小而不影响文本支路。之后再过一个标准自注意力块做精炼 \(\mathbf{E_o} = \mathbf{E_v}' + f_{\text{self}}(\mathbf{E_v}')\)。整个融合块堆叠两次，输出送进预测头。门控机制是这篇论文应对"模态可靠性随片段内容剧烈波动"的核心手段

损失函数 / 训练策略¶

轨迹编码器仅 195K 参数（占全模型 0.6%），从零开始与轨迹融合模块联合训练，主干保持冻结。优化器用 AdamW（学习率 \(5\times10^{-5}\)、余弦衰减、2 个 warmup epoch），对新引入的模块用 \(2\times\) 更高的学习率。

实验关键数据¶

数据集为 Ego4D NLQ v2（13,435 训练 / 4,552 验证 query-clip 对），训练用训练集、报告用验证集。指标是标准 R\(m\)@IoU=\(n\)：top-\(m\) 预测里至少一个与真值 IoU \(\geq n\) 的查询占比，\(n\) 取 0.3 和 0.5。

主实验（分类别 R1）¶

为验证"手部运动学有助于动作中心定位"，作者在与操作中心查询最接近的两个类别上报告分类别 R1：手物交互（HOI，\(N{=}1928\)）与数量/状态（Quantity/State，\(N{=}718\)）。

类别	\(N\)	[email protected] GroundNLQ	[email protected] 本文	Δ	[email protected] GroundNLQ	[email protected] 本文	Δ
HOI	1928	28.99	31.54	+2.54	19.97	21.73	+1.76
Quantity/State	718	24.93	29.25	+4.32	16.85	21.17	+4.32
Overall	4552	25.77	26.54	+0.77	17.11	18.50	+1.39

收益恰好集中在这两个操作相关类别，且在 HOI 内部进一步集中在动作模板上（"我对 X 做了什么动作？" +4.00；"我往 X 里放了什么？" +4.58），印证轨迹主要帮助定位"动作何时发生"。

整体对比¶

模型	[email protected]	[email protected]	[email protected]
GroundNLQ（基线，本地复现，无轨迹支路）	25.77	17.11	51.87
本文（轨迹融合）	26.54	18.50	52.37

整体上 [email protected] 提升 +1.39，几乎是 [email protected]（+0.77）提升的两倍——说明手部运动学不仅帮助召回相关时段，更能在操作瞬间收紧定位精度。

关键发现¶

收益与先验吻合：在覆盖约 41% 验证集的两类操作中心查询上提升最大（HOI +2.54、Quantity/State +4.32 [email protected]），而整体提升较温和，说明轨迹信号是"对症下药"而非全面增益。
高 IoU 阈值收益更大（[email protected] 提升约为 [email protected] 的两倍），暗示手部运动学的主要价值在于精确定位接触瞬间，而非粗略召回。
极轻量：仅 195K 新参数（全模型 0.6%）、主干冻结，就能换来分类别两位数百分点级别的相对提升。

亮点与洞察¶

用统计驱动动机：先量化"41% 的查询答案发生在手物操作瞬间、5/13 模板属操作中心"，再针对性引入手部模态——动机不是拍脑袋，而是数据里挖出来的，这种"先证明缺口存在再补"的写法很有说服力。
针对稀疏性的两个互补设计：编码端用 key-padding mask 屏蔽缺帧、融合端用内容自适应门控压低无信号支路，从"特征生成"和"特征使用"两头同时对抗 41% 检出率这个核心障碍，思路干净。
门控的可解释性：每个门只读自己支路的时间平均，使得"手没检测到时自动调小手支路权重"成为网络可学习的行为，而非硬编码规则——这种"让模型自己判断模态何时可信"的设计可迁移到任何"辅助模态质量不稳定"的多模态融合场景（如带噪 gaze、漏检物体框）。
不动主干的外挂式范式：冻结大主干、只训轻量适配模块，使方法天然兼容未来更强的视频-文本主干，工程上很友好。

局限与展望¶

检出稀疏是天花板：作者承认手只在 41% 的帧可见，这从根本上限制了轨迹支路的贡献上限；第一人称手检测一旦改进，定位应能直接受益。
整体提升有限：Overall [email protected] 仅 +0.77，收益高度依赖查询类别，对非操作类查询基本无帮助——这是"补特定缺口"方法的固有边界。
缺与其他辅助模态的横向对比：论文只和无轨迹的 GroundNLQ 基线比，没有和 GazeNLQ / ObjectNLQ / OSGNet 这些同样引入辅助模态的工作直接同台比较，因此"手部 vs 注视 vs 物体"哪个更值得加、能否叠加，尚不清楚（作者提到融合模块模态无关、可自然扩展到 gaze，但未实测）。
未公开代码，复现门槛较高。

评分¶

新颖性: ⭐⭐⭐⭐ 首个把手部轨迹引入 NLQ 定位，动机由数据统计支撑，切入点清晰但单一模态扩展
实验充分度: ⭐⭐⭐ 在 Ego4D NLQ v2 上验证了核心假设并给出分类别消融，但只和单一基线比、缺与其他辅助模态横向对比
写作质量: ⭐⭐⭐⭐ 动机-方法-实验逻辑闭环，公式与符号清晰，统计支撑到位
价值: ⭐⭐⭐⭐ 极轻量（0.6% 参数、冻结主干）、模态无关可扩展，对操作中心查询有明确实用价值