EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT¶

会议: NeurIPS 2025
arXiv: 2510.23569
代码: https://github.com/InternRobotics/EgoThinker
领域: 具身智能 / 第一人称视频理解
关键词: 第一人称视频, 思维链推理, 手-物体定位, GRPO强化微调, 大规模数据集

一句话总结¶

EgoThinker 构建了 500 万级第一人称视频 QA 数据集 EgoRe-5M（含因果 CoT 标注和手-物体精细定位数据），并通过"先 SFT 学推理、后 GRPO 练定位"的两阶段训练范式，让 7B MLLM 首次同时具备第一人称因果推理和时空精细定位能力，在 8+ 个基准上刷新 SOTA，7B 参数量在时间定位上甚至超过 72B 模型。

研究背景与动机¶

领域现状：多模态大语言模型（MLLM）在第三人称视角的视觉理解任务上已取得显著进展。链式思维提示（CoT）和强化微调（RFT，如 DeepSeek-R1 的 GRPO）进一步增强了推理能力。然而，这些方法几乎完全针对"旁观者视角"设计，处理的是可直接观察到的事件。

现有痛点：第一人称视频推理面临三大独特挑战，与第三人称推理本质不同：(1) 不可见执行者的意图推断——摄像机佩戴者不在画面中，模型需要从手部动作和物体变化推断隐藏的意图和下一步行动，这需要因果推理而非事件识别；(2) 精细手-物体交互定位——理解"正在做什么"的基础是精确知道手在哪、抓了什么，但现有 MLLM 在此任务上表现很差；(3) 超长时间跨度整合——第一人称视频从秒级到数分钟，模型需要在数千帧中追踪上下文演变并保留细节。现有数据集（Ego4D、EgoExo4D）虽提供大量视频，但缺乏显式推理链、跨时间标注和精细定位数据。

核心矛盾：现有 MLLM 在通用视觉理解上很强，但缺乏"身体化"的第一人称认知——它们能看懂画面但不理解"我正在做什么"以及"为什么这样做"。同时，高层推理（理解意图）和低层定位（手在哪里）是耦合的——没有精确定位就无法做好推理，但直接用 SFT 训练定位数据又会损害推理能力。

本文目标 (1) 构建一个包含因果推理链和时空定位标注的大规模第一人称 QA 数据集；(2) 设计训练策略让 MLLM 同时学会高层推理和底层定位而不互相干扰。

切入角度：作者的关键观察是：GRPO 强化微调可以用 IoU 作为可验证奖励来直接优化定位精度，而不需要学习奖励模型。更重要的是，GRPO 的 KL 正则化会约束模型不偏离 SFT 后的状态太远，因此可以增强定位能力而不损害已学到的推理能力。

核心 idea：用大规模自动标注流水线构建第一人称推理+定位数据集，再通过"先 SFT 学推理、后 GRPO 练定位"的两阶段方案，把通用 MLLM 改造为第一人称推理专家。

方法详解¶

整体框架¶

EgoThinker 分为数据构建和模型训练两部分。数据侧：从 HowTo100M 等大规模网络视频中通过三级过滤提取 870 万第一人称片段，再结合 Ego4D 等已有数据集共 1300 万片段，自动生成 500 万 QA 对（EgoRe-5M）。模型侧：以 Qwen2-VL-7B 为基座，第一阶段在 150 万混合数据上做 SFT 建立推理基础，第二阶段在 7 万精细定位数据上用 GRPO 做强化微调。

关键设计¶

多阶段第一人称视频过滤管道:
- 功能：从海量网络视频中高效筛选高质量第一人称视频片段
- 核心思路：三级过滤管道——(a) Web 规模挖掘：从 HowTo100M 的 HTM-AA 和 Howto-Interlink7M 出发，收集 3000 万初始片段；(b) Ego/Exo 分类：用 InternVideo 骨干+MLP 训练分类器（92% 准确率、89% AUC），过滤出 1200 万第一人称片段；(c) 动态交互过滤：用手-物体检测器筛选含手物交互的动态片段（要求同时存在可见手和活动物体），得到 870 万高质量片段。最后与 Ego4D、EPIC-Kitchens、EgoExoLearn、EgoExo4D 合并达 1300 万
- 设计动机：现有第一人称数据集规模远小于网络视频，但网络视频中第一人称内容比例低且质量参差，只有自动化多级过滤才能规模化获取
四维度 QA 数据构建（EgoRe-5M）:
- 功能：通过四种互补的 QA 类型全方位覆盖第一人称推理所需能力
- 核心思路：四个数据分片——(a) 短期感知 QA（240万对）：1-10 秒片段，7 类感知问题（物体存在/属性/数量/交互/动作描述/动作推理/背景属性），用 DeepSeek-V3 基于原始标注和 VideoChat2-HD 字幕生成；(b) 长期因果推理 QA（250万对）：将连续片段拼接为 15-120 秒段，6 类时序问题（动作序列/时间定位/物体计数/动作预测/总结/推理）；(c) CoT QA（5万对）：用 DeepSeek-R1 对拼接描述生成问题+逐步推理过程，模型自主决定是否对给定段生成 CoT 问题；(d) 精细定位 QA（7万对）：空间定位用 EK-Visor 的像素级标注生成手/物体 bbox 问题，时间定位用 EgoExoLearn 的时间标注生成时间区间定位问题，两者都要求模型先说出推理过程再输出坐标
- 设计动机：现有数据集要么只有短期感知、要么缺因果推理链、要么没有精细定位，四个维度各针对一个能力缺口，联合训练才能实现全面的第一人称理解
SFT + GRPO 两阶段训练:
- 功能：先建立推理基础，再用强化学习精炼定位能力而不损害推理
- 核心思路：Stage 1 (SFT)：在 150 万样本上训练，涵盖通用视觉字幕（10万）、VQA（7万）、第一人称相关数据（39万，含 SSV2、EgoTimeQA）和 EgoRe-5M 的短期+长期+CoT 分片（86万）。Stage 2 (RFT)：在 7 万精细定位数据上用 GRPO 做强化微调。奖励函数设计包含两部分——(a) 格式奖励 \(R_{\text{format}}\)：用正则匹配检查输出是否符合 <think>...</think><answer>...</answer> 格式，匹配=1/不匹配=0；(b) IoU 奖励 \(R_{\text{IoU}}\)：空间定位用 bbox mIoU，时间定位用时间窗口 mIoU。GRPO 对每个输入生成 \(N\) 个候选，计算组内归一化优势 \(A_i = (r_i - \text{mean})/\text{std}\)，最大化优势加权似然并加 KL 散度正则
- 设计动机：直接用 SFT 训练定位数据会损害 EgoSchema 等推理任务性能（消融表明 SFT 定位后 EgoSchema 从 71.9 降到 71.4、QAEgo4D 从 67.2 降到 62.1），而 RFT 通过 KL 正则保护已学能力，同时定位性能大幅超过 SFT（mIoU: 53.7 vs 38.9）

损失函数 / 训练策略¶

SFT 阶段使用标准交叉熵监督损失。RFT 阶段使用 GRPO 目标：\(\max_{\pi_\theta} \mathbb{E}[\sum_i \frac{\pi_\theta(o_i)}{\pi_{\theta_{old}}(o_i)} \cdot A_i - \beta D_{KL}(\pi_\theta \| \pi_{ref})]\)，其中 \(\beta\) 控制与参考模型的距离。

实验关键数据¶

主实验¶

基准	指标	EgoThinker	Qwen2-VL-7B	最佳对比	提升
EgoTaskQA	Acc	64.4	57.9	InternVL2: 61.0	+3.4
EgoPlan-Val	Acc	47.1	38.3	Exo2Ego: 42.7	+4.4
EgoSchema	Acc	67.6	63.3	InternVL2: 64.2	+3.4
VLN-QA	Acc	54.0	42.0	InternVL2: 46.0	+8.0
RES 跨视角	Acc	39.5	26.3	LLaVA-Video: 31.1	+8.4
EK-Visor 空间定位	Loc-Acc	80.3	64.5	72B: 71.7	+8.6
EgoExoLearn 时间定位	R1@0.05	63.9	5.4	72B: 49.9	+14.0

消融实验¶

配置	EgoTaskQA	QAEgo4D	EgoSchema	EK-Visor mIoU/Loc
Baseline	57.7	60.3	68.2	28.6/64.5
+SFT (Short)	61.6	63.1	69.1	29.1/64.9
+SFT (Short+Long)	64.2	63.7	71.1	28.9/64.5
+SFT (Short+Long+CoT)	64.3	67.2	71.9	28.5/64.4
+SFT (FG直接SFT)	—	62.1	71.4	38.9/74.1
+RFT (GRPO)	64.4	66.1	71.8	53.7/80.3

关键发现¶

RFT vs SFT 在定位上的巨大差距：EK-Visor mIoU 53.7 vs 38.9，时间定位 R1@0.05 63.9 vs 24.9。更关键的是 RFT 不损害推理（EgoSchema 71.8 vs SFT-FG 后的 71.4），而 SFT 定位后 QAEgo4D 从 67.2 大幅降到 62.1
7B 超越 72B：EgoThinker-7B 在时间定位（R1@0.05: 63.9 vs 49.9）和空间定位 Loc-Acc（80.3 vs 71.7）上均超过 Qwen2.5-VL-72B，证明针对性训练比单纯扩大规模更有效
CoT 数据对记忆型推理帮助最大：加入 CoT 分片后 QAEgo4D（专注情景记忆QA）从 63.7 大幅提升到 67.2，而 EgoTaskQA 仅微升 0.1——说明 CoT 对需要多步因果链的任务更有帮助
定位能力减少幻觉：在 POPE 基准上提升 3.2%（83.6→86.8），增强的手-物体定位能力使模型对物体存在的判断更准确

亮点与洞察¶

7B 超 72B 是最具说服力的结果：证明领域专注的数据+训练策略比暴力扩参数更高效。这个发现对资源受限的研究者有重要的实践意义
GRPO + IoU 奖励的巧妙结合：用 IoU 作为可验证奖励做强化微调，避免了奖励模型的训练复杂度。同时 KL 正则天然保护了 SFT 阶段学到的推理能力。这个"SFT→RFT"范式可推广到任何需要同时具备推理和精确输出的任务（如医学影像+诊断推理）
数据构建的工业级思路：从 3000 万网络视频到 870 万第一人称片段的三级过滤，以及用 DeepSeek-R1 自动生成 CoT 标注的方法，提供了一套可复用的大规模垂直数据构建范式

局限与展望¶

依赖大规模标注和离线微调：500 万 QA 对的自动生成虽然可行，但仍需大量 GPU 资源和 API 调用，且无法实时适应新场景
自动标注的系统性偏差：QA 对由 DeepSeek-V3/R1 自动生成，抽样验证 95% 准确，但可能存在模型偏见传播（如倾向生成某类问题、对特定文化语境的动作理解偏差）
仅在 Qwen2-VL-7B 上验证：未探索更大基座模型或不同架构的效果
未涉及实时推理或在线适应：论文本身承认这是关键局限——可穿戴助手需要流式推理能力

评分¶

新颖性: ⭐⭐⭐⭐ 两阶段方案和 IoU 奖励设计不算全新，但应用到第一人称推理+定位并实现 7B>72B 是有意义的
实验充分度: ⭐⭐⭐⭐⭐ 涵盖 8+ 基准、完整消融（数据分片、训练范式、帧数、幻觉检测）、定性可视化
写作质量: ⭐⭐⭐⭐ 结构清晰，数据构建细节充实，图表质量高
价值: ⭐⭐⭐⭐ 提供了大规模数据集（EgoRe-5M）和训练范式，对具身 AI 和可穿戴助手领域有直接参考价值