跳转至

HanDyVQA: A Video QA Benchmark for Fine-Grained Hand-Object Interaction Dynamics

会议: CVPR 2026
论文: CVF Open Access
代码: 项目主页
领域: 多模态VLM / 视频理解
关键词: 视频问答、手物交互、细粒度时空动态、Reasoning VOS、视频基础模型评测

一句话总结

HanDyVQA 是一个面向"手-物交互(HOI)动态过程"的细粒度视频问答 benchmark,用 6 类问题(动作/过程/物体/位置/状态变化/部件)覆盖"操作→效果"全链路,含 1.11 万道五选一选择题和 1.03 万帧分割掩码,实测最强模型 Gemini-2.5-Pro 也只有 73% 准确率,远低于人类的 97%。

研究背景与动机

领域现状:手-物交互理解是 egocentric 视频研究的核心方向,近年涌现大量 benchmark,主要分两支——要么做底层定位(检测手/物、估计 3D 姿态、物体追踪),要么做高层语义(动作识别、长程动作、流程步骤、物体状态变化)。

现有痛点:这些 benchmark 几乎都只盯住 HOI 的"单一侧面"——要么只看人怎么"操作"(manipulation),要么只看物体最终"变成什么状态"(effect),而且粒度很粗。比如只问"这个人在做什么动作",却不问"他从哪个方向锤、锤到了物体哪个部位、那个部位发生了什么形变"。

核心矛盾:HOI 本质是一个动态过程——人的手部动作在时空上连续地作用于物体,逐步产生效果。现有评测把这个连续过程拆成孤立的快照来考,自然就漏掉了"操作风格、手/物运动轨迹、部件级状态变化"这些只有看完整段视频才能回答的细节。

本文目标:造一个能系统评测"模型是否真懂 HOI 时空动态"的 benchmark,既覆盖操作侧也覆盖效果侧,既能问语义也能问像素级 grounding。

切入角度:作者观察到,"操作"和"效果"其实是同一交互过程的两端,应该用一套互补的问题类型把它们串起来;同时,物体/部件这类问题天然适合用分割掩码来验证模型是否"指对了地方",于是引入 Reasoning VOS 任务。

核心 idea:在 Ego4D 真实视频上,用"LLM 出草稿 + 人工精修验证"的流水线,构造 6 类互补的细粒度 HOI 问题,并配套部件级的推理分割任务,专门暴露当代视频大模型在时空动态上的短板。

方法详解

本文是 benchmark 论文,核心不在"提出新模型",而在"如何系统地造出一个能考倒现有模型的数据集 + 评测协议"。整体可拆成:定义任务与问题体系 → 半自动 QA 构造流水线 → 掩码标注 → 评测协议与划分。

整体框架

HanDyVQA 包含两个任务:多选题(MCQ)推理视频物体分割(ReasoningVOS)。给定一段视频和一个问题,MCQ 要求从若干选项里选出正确答案(可能多选),ReasoningVOS 则要求输出与正确答案对应的分割掩码。问题被组织成 6 个类别,前三类考"操作侧"、后三类考"效果侧":

  • Action(动作):人用手在做什么?
  • Process(过程):人是"怎么"完成这个动作的(方向、手法)?
  • Objects(物体):手用到了哪些物体?(常多答案)
  • Location(位置):人把物体放/移到了哪里?
  • State Change(状态变化):物体状态如何改变?
  • Object Parts(部件):物体的哪个部位发生了变化?

其中 Objects 和 Object Parts 两类额外提供 ReasoningVOS 样本(共 1.03 万帧掩码),要求模型不靠显式文本指代、而靠对问题的隐式推理去分割目标。整条数据生产线如下:

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["Ego4D 视频<br/>+ 旁白时间戳"] --> B["数据筛选<br/>LLM 判定是否操作物体<br/>每类取 5 秒片段"]
    B --> C["六类互补问题体系<br/>模板生成候选题"]
    C --> D["LLM 出题 + 人工精修验证<br/>校正答案·加强干扰项"]
    D --> E["部件级掩码标注<br/>每视频约 3 帧代表帧"]
    E --> F["评测协议<br/>MCQ 选择 + ReasoningVOS 分割"]

关键设计

1. 六类互补的问题体系:把"操作→效果"全链路拆成可考的维度

针对"现有 benchmark 只考单一侧面"这个痛点,作者把 HOI 动态显式拆成两组、共 6 类问题:操作侧(Action / Process / Objects)回答"人怎么动手、用了什么",效果侧(Location / State Change / Object Parts)回答"物体被移到哪、状态怎么变、哪个部件变了"。每类用固定模板从旁白里抽 [verb][object] 填空生成,例如 Process 是"How does the person [verb] [object]?"。这套设计的关键在于它逼模型回答只看完整时序才答得出的问题——比如 Process 要分辨"从上往下直锤"还是"从侧面锤",Object Parts 要定位"圆柱顶部的白色塑料件被锤进去了",这些都不是单帧、也不是粗粒度标签能覆盖的。Action/Process 的选项描述明显更长(平均 18.1/20.3 词),因为要写清手的左右、涉及物体和细粒度手部运动。

2. LLM 出草稿 + 人工精修验证的两阶段构造:在规模和质量间取得真实保证

纯人工标注 1.1 万道带强干扰项的题成本极高,纯 LLM 生成又难保正确性与难度。作者用协作式流水线:先让 LLM 从旁白生成候选问题和答案,再让 LLM 生成干扰项;然后标注员介入——核验问题是否符合视频实际内容、修正或拒绝不合适的题、为 Objects 这类多答案问题列全所有合理物体,并主动删除重叠选项、提升干扰项迷惑性、在必要时补更难的干扰项。最终所有 QA 都经人工验证"准确、足够迷惑、人能答对"。这一步是 benchmark 可信度的命门:正是它保证了人类基线能达到 95%+(说明题有解),而模型却普遍答不好(说明题真难)。⚠️ 选 MCQ 而非开放式问答,是为了减少评测歧义、并通过设计强干扰项来探测细粒度理解,而不是图省事。

3. 部件级 Reasoning VOS:用像素掩码验证"指对地方",而非只验证"说对词"

文本选择题可能被表层语义线索蒙对,作者于是为 Objects/Object Parts 配套分割任务:标注员从每段视频均匀采约 3 个目标清晰可见的代表帧,标出对应区域,共得 1.03 万帧掩码。与传统 Referring VOS(给显式文本指代去分割)不同,这里是 Reasoning VOS——模型要根据问题做隐式推理才知道该分割谁。由于 egocentric 视频里物体和相机都在动,掩码在相邻帧间漂移剧烈(Objects 相邻帧质心平均位移 93.7px、相邻帧 IoU 仅 0.17;Parts 更碎,IoU 仅 0.08),预测难度天然很高。部件级分割(如"圆柱被锤的那一小块")比物体级更难,专门考模型的 component-level grounding。

4. 真实多域数据 + 重测评轻训练的划分:保证多样性与评测严肃性

benchmark 建在 Ego4D 之上,因为它包含真实、未脚本化的多场景 HOI(烹饪、园艺、修车、木工等),覆盖 112 个视频域、Top30 动词分布广。每段取旁白时间戳前后各 2.5 秒、共 5 秒的片段。划分上作者刻意用 train:val:test = 10:5:85 的比例(约 1.1K / 0.5K / 9.4K 题),只留极小一部分做 instruction tuning 让模型学会输出格式,把绝大多数样本留给评测——强调"这是评测集而非训练集"。

损失函数 / 训练策略

本文不训练新模型,主体是 zero-shot 评测;唯一涉及训练的是 4.3 节的"hand/object-aware"基线研究——把现成的 HelpingHands、EgoHOD 等带手/物 bbox 辅助监督的模型拿来对比,验证显式建模手/物信息能否提升表现(结论是各组件能减少不同类型错误,但作用有限)。

实验关键数据

主实验:MCQ zero-shot 排行

评测 8 个模型(6 开源 + 2 闭源),双编码器模型用视频-选项文本余弦相似度选答,LLM 集成模型直接读帧+选项提示。除 Objects 用 AP(多答案)外均用 top-1 准确率;Avg 排除 Objects(指标不同)。

模型 类型 Action Process Location State Parts Avg
Random 19.3 18.9 20.4 19.8 19.4 19.5
GPT-4o (text only) 纯文本 36.6 50.9 34.1 39.5 45.5 41.3
LaViLa (TSF-L) 双编码器 61.6 40.1 36.9 38.9 35.6 42.6
LLaVa-Video-7B LLM集成 56.9 53.7 50.5 58.5 54.6 54.8
Qwen2.5-VL-7B LLM集成 60.8 54.9 47.9 56.7 48.6 53.8
Qwen2.5-VL-72B LLM集成 78.0 73.4 63.2 72.2 62.5 69.9
GPT-4o (vision) 闭源 61.3 64.4 51.5 59.0 58.5 58.9
Gemini-2.5-Pro 闭源 79.1 73.3 67.6 73.9 69.3 72.6
Human 98.6 95.9 96.6 95.3 96.9 96.6

最强的 Gemini-2.5-Pro 仅 72.6%,与人类 96.6% 存在约 24 个点的巨大鸿沟;纯文本 GPT-4o 仅略高于随机(说明选项无法靠文本偏置蒙对,benchmark 真要看视频)。Location 和 Parts 是所有模型的重灾区。

帧数/分辨率消融 + 错误类型分析

作者把错误归成 4 类,并扫描输入帧数(1→64 帧)和分辨率的影响:

配置变化 关键发现
增大帧数 + 分辨率 整体提升,Gemini-2.5-Pro 在 32 帧时各类错误最低、增益最一致
mPLUG-Owl3 超过 8 帧 性能饱和(因其训练时用 8 帧片段)
Motion 类错误 增帧/增分辨率几乎无改善,是最顽固的短板,解释了 Process/Location 提升有限
Interaction/空间关系错误 各模型错误率最高,对应 Location/Parts 低分

Hand/Object-aware 模型对比(Tab.4)

模型 关键特性 Objects(AP) 备注
LaViLa-L (16帧) 基线 68.5
HelpingHands-L 手/物 bbox 推断 69.2 (+0.7) Objects 涨但其他类全面引入更多错误
EgoHOD-L 富文本 + 运动适配器 75.3 (+6.8) Objects/Location/State 改善,但 Motion Adapter 没能解决运动类错误

ReasoningVOS(Tab.5)

所有模型分数远低于以往 ReasoningVOS benchmark(VideoLISA 在旧任务有 40+ 的 J,这里只有个位数)。最好的 Sa2VA-8B 在 Objects 上 J 约 32、Parts 仅约 11——部件级分割是全新难点。大模型整体更好(说明推理能力重要);视频输入对大掩码更有利,逐帧处理有时反而在小掩码上更好。

关键发现

  • 模型靠表层线索蒙混:定性分析显示失败集中在 4 类——混淆相邻物体/手的左右、抓不住手物/物物空间关系、漏掉运动、看不出结构/状态变化。说明现有模型缺乏对局部交互与时序动态的细粒度建模。
  • 运动理解是最硬的骨头:增加时序信息(帧数)几乎无法降低 Motion 错误,暴露当前 frame-based 架构对时序动态利用不足。
  • 显式手/物建模有用但不够:bbox/文本辅助监督能在部分类别提升,但代价是别处引入新错误,无法系统解决左右手区分、运动理解。
  • 部件级 grounding 是新挑战:Object Parts 的 VOS 分数显著低于以往,模型常漏检多个被操作物体或把部件过度分割。

亮点与洞察

  • "操作↔效果"双侧 + 6 类问题的设计很系统:它不是堆问题,而是用一套互补维度把 HOI 的连续动态拆成可量化的考点,让 benchmark 既有覆盖面又能定位模型具体短板(哪类问题/哪类错误)。
  • MCQ + ReasoningVOS 双任务相互印证:选择题验证"能不能说对",分割验证"能不能指对地方",两者结合大幅压缩了"靠语言先验蒙对"的空间——这是个可迁移到其他细粒度评测的思路。
  • 难度由人类基线背书:人类 95%+ 而最强模型仅 73%,且纯文本基线接近随机,说明题目难度真实来自视觉时空理解而非歧义或文本泄漏,这种"双向校验"让 benchmark 的结论更可信。
  • 错误类型化分析提供改进方向:把 24 个点的差距拆成"空间关系/运动/结构变化"等具体瓶颈,等于给后续做 HOI-aware 视频编码器画了路线图。

局限与展望

  • 作者承认当前 hand/object-aware 建模对运动、左右手区分等问题作用有限,暗示需要专门建模局部手-物信息及其时空动态的视频编码器。
  • benchmark 仅建在 Ego4D(egocentric)上,结论是否迁移到第三人称视频未验证;5 秒短片段也限制了对长程操作流程的考察。⚠️ 训练集只占 10%,主要用于格式对齐而非充分微调,因此本文未给出"在该数据上充分训练后能到多高"的上界参考。
  • ReasoningVOS 每视频仅约 3 帧代表帧标注,掩码时序密度较低,对连续追踪类评测的支撑有限。
  • 改进思路:设计显式融合手姿态、物体追踪、物体特征的视频编码器;针对 Motion 错误引入更强的运动/光流建模;扩展到多视角或更长时序。

相关工作与启发

  • vs 高层 HOI benchmark(EgoTaskQA / EgoHOIBench / OSCAR 等):它们只考操作或效果之一、粒度粗;HanDyVQA 同时覆盖操作与效果、且做到部件级细粒度,所有 QA 经人工验证。
  • vs HD-EPIC:HD-EPIC 虽做细粒度但效果侧只含 Location 类、不含 State Change/Object Parts;HanDyVQA 把效果侧补全到部件级。
  • vs Referring VOS(EgoMask / HOI-QA):它们靠显式文本指代做物体级分割;HanDyVQA 引入隐式推理的 Reasoning VOS 并下沉到部件级,要求对动态手-物关系和结构变化做推理。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个同时覆盖操作与效果、且带部件级 Reasoning VOS 的细粒度 HOI 动态 benchmark
  • 实验充分度: ⭐⭐⭐⭐⭐ 8 个 MCQ 模型 + 多个 VOS 模型 + 帧数/分辨率消融 + 错误类型化分析 + hand/object-aware 对比,非常完整
  • 写作质量: ⭐⭐⭐⭐ 任务定义与构造流水线清晰,错误分析有洞见
  • 价值: ⭐⭐⭐⭐ 暴露当代视频大模型在 HOI 时空动态上的硬短板,为 HOI-aware 编码器提供明确路线图