HanDyVQA: A Video QA Benchmark for Fine-Grained Hand-Object Interaction Dynamics¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目主页
领域: 多模态VLM / 视频理解
关键词: 视频问答、手物交互、细粒度时空动态、Reasoning VOS、视频基础模型评测

一句话总结¶

HanDyVQA 是一个面向"手-物交互（HOI）动态过程"的细粒度视频问答 benchmark，用 6 类问题（动作/过程/物体/位置/状态变化/部件）覆盖"操作→效果"全链路，含 1.11 万道五选一选择题和 1.03 万帧分割掩码，实测最强模型 Gemini-2.5-Pro 也只有 73% 准确率，远低于人类的 97%。

研究背景与动机¶

领域现状：手-物交互理解是 egocentric 视频研究的核心方向，近年涌现大量 benchmark，主要分两支——要么做底层定位（检测手/物、估计 3D 姿态、物体追踪），要么做高层语义（动作识别、长程动作、流程步骤、物体状态变化）。

现有痛点：这些 benchmark 几乎都只盯住 HOI 的"单一侧面"——要么只看人怎么"操作"（manipulation），要么只看物体最终"变成什么状态"（effect），而且粒度很粗。比如只问"这个人在做什么动作"，却不问"他从哪个方向锤、锤到了物体哪个部位、那个部位发生了什么形变"。

核心矛盾：HOI 本质是一个动态过程——人的手部动作在时空上连续地作用于物体，逐步产生效果。现有评测把这个连续过程拆成孤立的快照来考，自然就漏掉了"操作风格、手/物运动轨迹、部件级状态变化"这些只有看完整段视频才能回答的细节。

本文目标：造一个能系统评测"模型是否真懂 HOI 时空动态"的 benchmark，既覆盖操作侧也覆盖效果侧，既能问语义也能问像素级 grounding。

切入角度：作者观察到，"操作"和"效果"其实是同一交互过程的两端，应该用一套互补的问题类型把它们串起来；同时，物体/部件这类问题天然适合用分割掩码来验证模型是否"指对了地方"，于是引入 Reasoning VOS 任务。

核心 idea：在 Ego4D 真实视频上，用"LLM 出草稿 + 人工精修验证"的流水线，构造 6 类互补的细粒度 HOI 问题，并配套部件级的推理分割任务，专门暴露当代视频大模型在时空动态上的短板。

方法详解¶

本文是 benchmark 论文，核心不在"提出新模型"，而在"如何系统地造出一个能考倒现有模型的数据集 + 评测协议"。整体可拆成：定义任务与问题体系 → 半自动 QA 构造流水线 → 掩码标注 → 评测协议与划分。

整体框架¶

HanDyVQA 包含两个任务：多选题（MCQ） 与 推理视频物体分割（ReasoningVOS）。给定一段视频和一个问题，MCQ 要求从若干选项里选出正确答案（可能多选），ReasoningVOS 则要求输出与正确答案对应的分割掩码。问题被组织成 6 个类别，前三类考"操作侧"、后三类考"效果侧"：

Action（动作）：人用手在做什么？
Process（过程）：人是"怎么"完成这个动作的（方向、手法）？
Objects（物体）：手用到了哪些物体？（常多答案）
Location（位置）：人把物体放/移到了哪里？
State Change（状态变化）：物体状态如何改变？
Object Parts（部件）：物体的哪个部位发生了变化？

其中 Objects 和 Object Parts 两类额外提供 ReasoningVOS 样本（共 1.03 万帧掩码），要求模型不靠显式文本指代、而靠对问题的隐式推理去分割目标。整条数据生产线如下：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["Ego4D 视频<br/>+ 旁白时间戳"] --> B["数据筛选<br/>LLM 判定是否操作物体<br/>每类取 5 秒片段"]
    B --> C["六类互补问题体系<br/>模板生成候选题"]
    C --> D["LLM 出题 + 人工精修验证<br/>校正答案·加强干扰项"]
    D --> E["部件级掩码标注<br/>每视频约 3 帧代表帧"]
    E --> F["评测协议<br/>MCQ 选择 + ReasoningVOS 分割"]

关键设计¶

1. 六类互补的问题体系：把"操作→效果"全链路拆成可考的维度

针对"现有 benchmark 只考单一侧面"这个痛点，作者把 HOI 动态显式拆成两组、共 6 类问题：操作侧（Action / Process / Objects）回答"人怎么动手、用了什么"，效果侧（Location / State Change / Object Parts）回答"物体被移到哪、状态怎么变、哪个部件变了"。每类用固定模板从旁白里抽 [verb] 和 [object] 填空生成，例如 Process 是"How does the person [verb] [object]?"。这套设计的关键在于它逼模型回答只看完整时序才答得出的问题——比如 Process 要分辨"从上往下直锤"还是"从侧面锤"，Object Parts 要定位"圆柱顶部的白色塑料件被锤进去了"，这些都不是单帧、也不是粗粒度标签能覆盖的。Action/Process 的选项描述明显更长（平均 18.1/20.3 词），因为要写清手的左右、涉及物体和细粒度手部运动。

2. LLM 出草稿 + 人工精修验证的两阶段构造：在规模和质量间取得真实保证

纯人工标注 1.1 万道带强干扰项的题成本极高，纯 LLM 生成又难保正确性与难度。作者用协作式流水线：先让 LLM 从旁白生成候选问题和答案，再让 LLM 生成干扰项；然后标注员介入——核验问题是否符合视频实际内容、修正或拒绝不合适的题、为 Objects 这类多答案问题列全所有合理物体，并主动删除重叠选项、提升干扰项迷惑性、在必要时补更难的干扰项。最终所有 QA 都经人工验证"准确、足够迷惑、人能答对"。这一步是 benchmark 可信度的命门：正是它保证了人类基线能达到 95%+（说明题有解），而模型却普遍答不好（说明题真难）。⚠️ 选 MCQ 而非开放式问答，是为了减少评测歧义、并通过设计强干扰项来探测细粒度理解，而不是图省事。

3. 部件级 Reasoning VOS：用像素掩码验证"指对地方"，而非只验证"说对词"

文本选择题可能被表层语义线索蒙对，作者于是为 Objects/Object Parts 配套分割任务：标注员从每段视频均匀采约 3 个目标清晰可见的代表帧，标出对应区域，共得 1.03 万帧掩码。与传统 Referring VOS（给显式文本指代去分割）不同，这里是 Reasoning VOS——模型要根据问题做隐式推理才知道该分割谁。由于 egocentric 视频里物体和相机都在动，掩码在相邻帧间漂移剧烈（Objects 相邻帧质心平均位移 93.7px、相邻帧 IoU 仅 0.17；Parts 更碎，IoU 仅 0.08），预测难度天然很高。部件级分割（如"圆柱被锤的那一小块"）比物体级更难，专门考模型的 component-level grounding。

4. 真实多域数据 + 重测评轻训练的划分：保证多样性与评测严肃性

benchmark 建在 Ego4D 之上，因为它包含真实、未脚本化的多场景 HOI（烹饪、园艺、修车、木工等），覆盖 112 个视频域、Top30 动词分布广。每段取旁白时间戳前后各 2.5 秒、共 5 秒的片段。划分上作者刻意用 train:val:test = 10:5:85 的比例（约 1.1K / 0.5K / 9.4K 题），只留极小一部分做 instruction tuning 让模型学会输出格式，把绝大多数样本留给评测——强调"这是评测集而非训练集"。

损失函数 / 训练策略¶

本文不训练新模型，主体是 zero-shot 评测；唯一涉及训练的是 4.3 节的"hand/object-aware"基线研究——把现成的 HelpingHands、EgoHOD 等带手/物 bbox 辅助监督的模型拿来对比，验证显式建模手/物信息能否提升表现（结论是各组件能减少不同类型错误，但作用有限）。

实验关键数据¶

主实验：MCQ zero-shot 排行¶

评测 8 个模型（6 开源 + 2 闭源），双编码器模型用视频-选项文本余弦相似度选答，LLM 集成模型直接读帧+选项提示。除 Objects 用 AP（多答案）外均用 top-1 准确率；Avg 排除 Objects（指标不同）。

模型	类型	Action	Process	Location	State	Parts	Avg
Random	–	19.3	18.9	20.4	19.8	19.4	19.5
GPT-4o (text only)	纯文本	36.6	50.9	34.1	39.5	45.5	41.3
LaViLa (TSF-L)	双编码器	61.6	40.1	36.9	38.9	35.6	42.6
LLaVa-Video-7B	LLM集成	56.9	53.7	50.5	58.5	54.6	54.8
Qwen2.5-VL-7B	LLM集成	60.8	54.9	47.9	56.7	48.6	53.8
Qwen2.5-VL-72B	LLM集成	78.0	73.4	63.2	72.2	62.5	69.9
GPT-4o (vision)	闭源	61.3	64.4	51.5	59.0	58.5	58.9
Gemini-2.5-Pro	闭源	79.1	73.3	67.6	73.9	69.3	72.6
Human	–	98.6	95.9	96.6	95.3	96.9	96.6

最强的 Gemini-2.5-Pro 仅 72.6%，与人类 96.6% 存在约 24 个点的巨大鸿沟；纯文本 GPT-4o 仅略高于随机（说明选项无法靠文本偏置蒙对，benchmark 真要看视频）。Location 和 Parts 是所有模型的重灾区。

帧数/分辨率消融 + 错误类型分析¶

作者把错误归成 4 类，并扫描输入帧数（1→64 帧）和分辨率的影响：

配置变化	关键发现
增大帧数 + 分辨率	整体提升，Gemini-2.5-Pro 在 32 帧时各类错误最低、增益最一致
mPLUG-Owl3 超过 8 帧	性能饱和（因其训练时用 8 帧片段）
Motion 类错误	增帧/增分辨率几乎无改善，是最顽固的短板，解释了 Process/Location 提升有限
Interaction/空间关系错误	各模型错误率最高，对应 Location/Parts 低分

Hand/Object-aware 模型对比（Tab.4）¶

模型	关键特性	Objects(AP)	备注
LaViLa-L (16帧)	基线	68.5	–
HelpingHands-L	手/物 bbox 推断	69.2 (+0.7)	Objects 涨但其他类全面引入更多错误
EgoHOD-L	富文本 + 运动适配器	75.3 (+6.8)	Objects/Location/State 改善，但 Motion Adapter 没能解决运动类错误

ReasoningVOS（Tab.5）¶

所有模型分数远低于以往 ReasoningVOS benchmark（VideoLISA 在旧任务有 40+ 的 J，这里只有个位数）。最好的 Sa2VA-8B 在 Objects 上 J 约 32、Parts 仅约 11——部件级分割是全新难点。大模型整体更好（说明推理能力重要）；视频输入对大掩码更有利，逐帧处理有时反而在小掩码上更好。

关键发现¶

模型靠表层线索蒙混：定性分析显示失败集中在 4 类——混淆相邻物体/手的左右、抓不住手物/物物空间关系、漏掉运动、看不出结构/状态变化。说明现有模型缺乏对局部交互与时序动态的细粒度建模。
运动理解是最硬的骨头：增加时序信息（帧数）几乎无法降低 Motion 错误，暴露当前 frame-based 架构对时序动态利用不足。
显式手/物建模有用但不够：bbox/文本辅助监督能在部分类别提升，但代价是别处引入新错误，无法系统解决左右手区分、运动理解。
部件级 grounding 是新挑战：Object Parts 的 VOS 分数显著低于以往，模型常漏检多个被操作物体或把部件过度分割。

亮点与洞察¶

"操作↔效果"双侧 + 6 类问题的设计很系统：它不是堆问题，而是用一套互补维度把 HOI 的连续动态拆成可量化的考点，让 benchmark 既有覆盖面又能定位模型具体短板（哪类问题/哪类错误）。
MCQ + ReasoningVOS 双任务相互印证：选择题验证"能不能说对"，分割验证"能不能指对地方"，两者结合大幅压缩了"靠语言先验蒙对"的空间——这是个可迁移到其他细粒度评测的思路。
难度由人类基线背书：人类 95%+ 而最强模型仅 73%，且纯文本基线接近随机，说明题目难度真实来自视觉时空理解而非歧义或文本泄漏，这种"双向校验"让 benchmark 的结论更可信。
错误类型化分析提供改进方向：把 24 个点的差距拆成"空间关系/运动/结构变化"等具体瓶颈，等于给后续做 HOI-aware 视频编码器画了路线图。

局限与展望¶

作者承认当前 hand/object-aware 建模对运动、左右手区分等问题作用有限，暗示需要专门建模局部手-物信息及其时空动态的视频编码器。
benchmark 仅建在 Ego4D（egocentric）上，结论是否迁移到第三人称视频未验证；5 秒短片段也限制了对长程操作流程的考察。⚠️ 训练集只占 10%，主要用于格式对齐而非充分微调，因此本文未给出"在该数据上充分训练后能到多高"的上界参考。
ReasoningVOS 每视频仅约 3 帧代表帧标注，掩码时序密度较低，对连续追踪类评测的支撑有限。
改进思路：设计显式融合手姿态、物体追踪、物体特征的视频编码器；针对 Motion 错误引入更强的运动/光流建模；扩展到多视角或更长时序。

评分¶

新颖性: ⭐⭐⭐⭐ 首个同时覆盖操作与效果、且带部件级 Reasoning VOS 的细粒度 HOI 动态 benchmark
实验充分度: ⭐⭐⭐⭐⭐ 8 个 MCQ 模型 + 多个 VOS 模型 + 帧数/分辨率消融 + 错误类型化分析 + hand/object-aware 对比，非常完整
写作质量: ⭐⭐⭐⭐ 任务定义与构造流水线清晰，错误分析有洞见
价值: ⭐⭐⭐⭐ 暴露当代视频大模型在 HOI 时空动态上的硬短板，为 HOI-aware 编码器提供明确路线图