EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT¶
会议: NeurIPS 2025
arXiv: 2510.23569
代码: https://github.com/InternRobotics/EgoThinker
领域: 具身智能 / 第一人称视频理解
关键词: 第一人称视频, 思维链推理, 手-物体定位, GRPO强化微调, 大规模数据集
一句话总结¶
EgoThinker 构建了 500 万级第一人称视频 QA 数据集 EgoRe-5M(含因果 CoT 标注和手-物体精细定位数据),并通过"先 SFT 学推理、后 GRPO 练定位"的两阶段训练范式,让 7B MLLM 首次同时具备第一人称因果推理和时空精细定位能力,在 8+ 个基准上刷新 SOTA,7B 参数量在时间定位上甚至超过 72B 模型。
研究背景与动机¶
领域现状:多模态大语言模型(MLLM)在第三人称视角的视觉理解任务上已取得显著进展。链式思维提示(CoT)和强化微调(RFT,如 DeepSeek-R1 的 GRPO)进一步增强了推理能力。然而,这些方法几乎完全针对"旁观者视角"设计,处理的是可直接观察到的事件。
现有痛点:第一人称视频推理面临三大独特挑战,与第三人称推理本质不同:(1) 不可见执行者的意图推断——摄像机佩戴者不在画面中,模型需要从手部动作和物体变化推断隐藏的意图和下一步行动,这需要因果推理而非事件识别;(2) 精细手-物体交互定位——理解"正在做什么"的基础是精确知道手在哪、抓了什么,但现有 MLLM 在此任务上表现很差;(3) 超长时间跨度整合——第一人称视频从秒级到数分钟,模型需要在数千帧中追踪上下文演变并保留细节。现有数据集(Ego4D、EgoExo4D)虽提供大量视频,但缺乏显式推理链、跨时间标注和精细定位数据。
核心矛盾:现有 MLLM 在通用视觉理解上很强,但缺乏"身体化"的第一人称认知——它们能看懂画面但不理解"我正在做什么"以及"为什么这样做"。同时,高层推理(理解意图)和低层定位(手在哪里)是耦合的——没有精确定位就无法做好推理,但直接用 SFT 训练定位数据又会损害推理能力。
本文目标 (1) 构建一个包含因果推理链和时空定位标注的大规模第一人称 QA 数据集;(2) 设计训练策略让 MLLM 同时学会高层推理和底层定位而不互相干扰。
切入角度:作者的关键观察是:GRPO 强化微调可以用 IoU 作为可验证奖励来直接优化定位精度,而不需要学习奖励模型。更重要的是,GRPO 的 KL 正则化会约束模型不偏离 SFT 后的状态太远,因此可以增强定位能力而不损害已学到的推理能力。
核心 idea:用大规模自动标注流水线构建第一人称推理+定位数据集,再通过"先 SFT 学推理、后 GRPO 练定位"的两阶段方案,把通用 MLLM 改造为第一人称推理专家。
方法详解¶
整体框架¶
EgoThinker 分为数据构建和模型训练两部分。数据侧:从 HowTo100M 等大规模网络视频中通过三级过滤提取 870 万第一人称片段,再结合 Ego4D 等已有数据集共 1300 万片段,自动生成 500 万 QA 对(EgoRe-5M)。模型侧:以 Qwen2-VL-7B 为基座,第一阶段在 150 万混合数据上做 SFT 建立推理基础,第二阶段在 7 万精细定位数据上用 GRPO 做强化微调。
关键设计¶
-
多阶段第一人称视频过滤管道:
- 功能:从海量网络视频中高效筛选高质量第一人称视频片段
- 核心思路:三级过滤管道——(a) Web 规模挖掘:从 HowTo100M 的 HTM-AA 和 Howto-Interlink7M 出发,收集 3000 万初始片段;(b) Ego/Exo 分类:用 InternVideo 骨干+MLP 训练分类器(92% 准确率、89% AUC),过滤出 1200 万第一人称片段;(c) 动态交互过滤:用手-物体检测器筛选含手物交互的动态片段(要求同时存在可见手和活动物体),得到 870 万高质量片段。最后与 Ego4D、EPIC-Kitchens、EgoExoLearn、EgoExo4D 合并达 1300 万
- 设计动机:现有第一人称数据集规模远小于网络视频,但网络视频中第一人称内容比例低且质量参差,只有自动化多级过滤才能规模化获取
-
四维度 QA 数据构建(EgoRe-5M):
- 功能:通过四种互补的 QA 类型全方位覆盖第一人称推理所需能力
- 核心思路:四个数据分片——(a) 短期感知 QA(240万对):1-10 秒片段,7 类感知问题(物体存在/属性/数量/交互/动作描述/动作推理/背景属性),用 DeepSeek-V3 基于原始标注和 VideoChat2-HD 字幕生成;(b) 长期因果推理 QA(250万对):将连续片段拼接为 15-120 秒段,6 类时序问题(动作序列/时间定位/物体计数/动作预测/总结/推理);(c) CoT QA(5万对):用 DeepSeek-R1 对拼接描述生成问题+逐步推理过程,模型自主决定是否对给定段生成 CoT 问题;(d) 精细定位 QA(7万对):空间定位用 EK-Visor 的像素级标注生成手/物体 bbox 问题,时间定位用 EgoExoLearn 的时间标注生成时间区间定位问题,两者都要求模型先说出推理过程再输出坐标
- 设计动机:现有数据集要么只有短期感知、要么缺因果推理链、要么没有精细定位,四个维度各针对一个能力缺口,联合训练才能实现全面的第一人称理解
-
SFT + GRPO 两阶段训练:
- 功能:先建立推理基础,再用强化学习精炼定位能力而不损害推理
- 核心思路:Stage 1 (SFT):在 150 万样本上训练,涵盖通用视觉字幕(10万)、VQA(7万)、第一人称相关数据(39万,含 SSV2、EgoTimeQA)和 EgoRe-5M 的短期+长期+CoT 分片(86万)。Stage 2 (RFT):在 7 万精细定位数据上用 GRPO 做强化微调。奖励函数设计包含两部分——(a) 格式奖励 \(R_{\text{format}}\):用正则匹配检查输出是否符合
<think>...</think><answer>...</answer>格式,匹配=1/不匹配=0;(b) IoU 奖励 \(R_{\text{IoU}}\):空间定位用 bbox mIoU,时间定位用时间窗口 mIoU。GRPO 对每个输入生成 \(N\) 个候选,计算组内归一化优势 \(A_i = (r_i - \text{mean})/\text{std}\),最大化优势加权似然并加 KL 散度正则 - 设计动机:直接用 SFT 训练定位数据会损害 EgoSchema 等推理任务性能(消融表明 SFT 定位后 EgoSchema 从 71.9 降到 71.4、QAEgo4D 从 67.2 降到 62.1),而 RFT 通过 KL 正则保护已学能力,同时定位性能大幅超过 SFT(mIoU: 53.7 vs 38.9)
损失函数 / 训练策略¶
SFT 阶段使用标准交叉熵监督损失。RFT 阶段使用 GRPO 目标:\(\max_{\pi_\theta} \mathbb{E}[\sum_i \frac{\pi_\theta(o_i)}{\pi_{\theta_{old}}(o_i)} \cdot A_i - \beta D_{KL}(\pi_\theta \| \pi_{ref})]\),其中 \(\beta\) 控制与参考模型的距离。
实验关键数据¶
主实验¶
| 基准 | 指标 | EgoThinker | Qwen2-VL-7B | 最佳对比 | 提升 |
|---|---|---|---|---|---|
| EgoTaskQA | Acc | 64.4 | 57.9 | InternVL2: 61.0 | +3.4 |
| EgoPlan-Val | Acc | 47.1 | 38.3 | Exo2Ego: 42.7 | +4.4 |
| EgoSchema | Acc | 67.6 | 63.3 | InternVL2: 64.2 | +3.4 |
| VLN-QA | Acc | 54.0 | 42.0 | InternVL2: 46.0 | +8.0 |
| RES 跨视角 | Acc | 39.5 | 26.3 | LLaVA-Video: 31.1 | +8.4 |
| EK-Visor 空间定位 | Loc-Acc | 80.3 | 64.5 | 72B: 71.7 | +8.6 |
| EgoExoLearn 时间定位 | R1@0.05 | 63.9 | 5.4 | 72B: 49.9 | +14.0 |
消融实验¶
| 配置 | EgoTaskQA | QAEgo4D | EgoSchema | EK-Visor mIoU/Loc |
|---|---|---|---|---|
| Baseline | 57.7 | 60.3 | 68.2 | 28.6/64.5 |
| +SFT (Short) | 61.6 | 63.1 | 69.1 | 29.1/64.9 |
| +SFT (Short+Long) | 64.2 | 63.7 | 71.1 | 28.9/64.5 |
| +SFT (Short+Long+CoT) | 64.3 | 67.2 | 71.9 | 28.5/64.4 |
| +SFT (FG直接SFT) | — | 62.1 | 71.4 | 38.9/74.1 |
| +RFT (GRPO) | 64.4 | 66.1 | 71.8 | 53.7/80.3 |
关键发现¶
- RFT vs SFT 在定位上的巨大差距:EK-Visor mIoU 53.7 vs 38.9,时间定位 R1@0.05 63.9 vs 24.9。更关键的是 RFT 不损害推理(EgoSchema 71.8 vs SFT-FG 后的 71.4),而 SFT 定位后 QAEgo4D 从 67.2 大幅降到 62.1
- 7B 超越 72B:EgoThinker-7B 在时间定位(R1@0.05: 63.9 vs 49.9)和空间定位 Loc-Acc(80.3 vs 71.7)上均超过 Qwen2.5-VL-72B,证明针对性训练比单纯扩大规模更有效
- CoT 数据对记忆型推理帮助最大:加入 CoT 分片后 QAEgo4D(专注情景记忆QA)从 63.7 大幅提升到 67.2,而 EgoTaskQA 仅微升 0.1——说明 CoT 对需要多步因果链的任务更有帮助
- 定位能力减少幻觉:在 POPE 基准上提升 3.2%(83.6→86.8),增强的手-物体定位能力使模型对物体存在的判断更准确
亮点与洞察¶
- 7B 超 72B 是最具说服力的结果:证明领域专注的数据+训练策略比暴力扩参数更高效。这个发现对资源受限的研究者有重要的实践意义
- GRPO + IoU 奖励的巧妙结合:用 IoU 作为可验证奖励做强化微调,避免了奖励模型的训练复杂度。同时 KL 正则天然保护了 SFT 阶段学到的推理能力。这个"SFT→RFT"范式可推广到任何需要同时具备推理和精确输出的任务(如医学影像+诊断推理)
- 数据构建的工业级思路:从 3000 万网络视频到 870 万第一人称片段的三级过滤,以及用 DeepSeek-R1 自动生成 CoT 标注的方法,提供了一套可复用的大规模垂直数据构建范式
局限与展望¶
- 依赖大规模标注和离线微调:500 万 QA 对的自动生成虽然可行,但仍需大量 GPU 资源和 API 调用,且无法实时适应新场景
- 自动标注的系统性偏差:QA 对由 DeepSeek-V3/R1 自动生成,抽样验证 95% 准确,但可能存在模型偏见传播(如倾向生成某类问题、对特定文化语境的动作理解偏差)
- 仅在 Qwen2-VL-7B 上验证:未探索更大基座模型或不同架构的效果
- 未涉及实时推理或在线适应:论文本身承认这是关键局限——可穿戴助手需要流式推理能力
相关工作与启发¶
- vs Exo2Ego (2024): 通过跨视角对比学习增强第一人称理解,EgoThinker 则通过大规模数据+CoT+RFT 的端到端方案在 RES 跨视角基准上领先 8.4%
- vs VideoChat-R1: 也用 RFT 增强时间感知,但针对通用视频理解。EgoThinker 专门设计了手-物体 IoU 奖励,在第一人称场景更有效
- vs LLaVA-Video: 通用视频模型在第一人称任务上表现不均匀(QAEgo4D 高但 EgoPlan 低),而 EgoThinker 在所有第一人称基准上均一致领先
评分¶
- 新颖性: ⭐⭐⭐⭐ 两阶段方案和 IoU 奖励设计不算全新,但应用到第一人称推理+定位并实现 7B>72B 是有意义的
- 实验充分度: ⭐⭐⭐⭐⭐ 涵盖 8+ 基准、完整消融(数据分片、训练范式、帧数、幻觉检测)、定性可视化
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据构建细节充实,图表质量高
- 价值: ⭐⭐⭐⭐ 提供了大规模数据集(EgoRe-5M)和训练范式,对具身 AI 和可穿戴助手领域有直接参考价值