Ego-Grounding for Personalized Question-Answering in Egocentric Videos¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无(论文未提供)
领域: 视频理解 / 多模态VLM
关键词: 自我中心视频, 个性化问答, ego-grounding, VideoQA 基准, 长程记忆
一句话总结¶
本文提出 MyEgo——首个针对「个性化自我中心视频问答」的诊断性基准(541 段长视频、5K 道问"我的东西/我的活动/我的过去"的问题),系统检验主流 MLLM 是否能做 ego-grounding(理解、记住、追踪"戴相机的人/我");结果发现 GPT-5 仅 46% 准确率、落后人类近 40 个点,且放大模型规模和加思维链都救不了,瓶颈在长程记忆与身份追踪。
研究背景与动机¶
领域现状:随着智能眼镜等可穿戴设备普及,第一人称(egocentric)视频成为记录个人日常经历的重要媒介。要让 AI 助手帮用户回忆"我看过/做过/碰过什么",前提是它能做 ego-grounding:在"我的"第一人称视频里搞清"我""我的东西""我的活动""我的过去"。现有 MLLM 凭借强视觉推理 + 长上下文看似有希望胜任。
现有痛点:自我中心视频里,戴相机的人本身往往只部分可见(手、胳膊、自我运动、偶尔的反光),既看不到全脸又没有稳定外观锚点。现有 VideoQA / 自我中心基准(EgoSchema、EgoMemoria、EgoThink 等)测的是通用第一人称理解,没人专门测"个性化指代消解"——区分"我"和旁边的人、在多个相似物体里认出"我用过的那个"。
核心矛盾:成功的 ego-grounding 同时需要空间辨别(把戴相机者和近旁他人/相似物体分开)和长程时序推理(回忆几十秒甚至几分钟前、当下已不可见的交互)。而当前 MLLM 大多一次只处理 8–32 帧,长程整合能力受限;更糟的是它们倾向用短期外观线索而非真正"锚定"身份,一旦真实指代物离开画面就答错。
本文目标:不是提新模型,而是构造一个能专门诊断 ego-grounding 是否成立的数据集与评测,把失败拆解清楚(是空间分不清,还是记不住"我"和"我的过去")。
切入角度:作者从一个朴素观察出发——人类做这种"那是我的抹布吗"的题轻而易举,但同一道题在指代物离开画面、且另一人拿着相似物出现后再问,所有 MLLM 都翻车。这说明问题不在"看懂当前帧",而在"维持跨时间的身份/物体表征"。
核心 idea:把"个性化第一人称指代"显式做成可控的诊断题——每题都绑定 question moment(提问时刻) 与 answer moment(证据出现时刻) 两个时间戳,并刻意设计需要区分"我 vs 他人""我的物体 vs 相似干扰物"的题,从而把模型在记忆与追踪上的短板暴露出来。
方法详解¶
整体框架¶
这是一篇基准 + 诊断分析论文,不提出新模型,"方法"即:① 把个性化自我中心 QA 形式化成可度量的 ego-grounding 任务;② 用一条人工主导的管线构建 MyEgo 数据集;③ 设计三组受控探针,把 MLLM 的失败定位到"长程记忆/关键帧检索"而非"看不懂画面"。整体流向是:定义任务 → 构建数据 → 基准评测一大批 MLLM → 受控分析找瓶颈 → 给出结论。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["第一人称视频<br/>(Ego4D / EgoLife / CASTEL2024)"] --> B["Ego-grounding 任务定义<br/>个性化QA = MP + MO<br/>双时间戳 t_q / t_a"]
B --> C["MyEgo 构建管线<br/>拼长视频→人工标注→MC干扰项→可解过滤"]
C --> D["MLLM 基准评测<br/>开/闭源 × 思考/非思考 × 大/小"]
D --> E["受控探针分析<br/>Q&A采样 / 帧数 / personalization prompt"]
E --> F["结论:瓶颈在长程记忆<br/>与身份追踪,非看不懂画面"]
关键设计¶
1. Ego-grounding 任务定义:把"个性化第一人称指代"拆成两类可诊断难点
作者把"自我中心个性化 VideoQA"形式化为:在流式第一人称视频中回答需要锚定第一人称指代("I""my")的问题。这类题刻意落在两个对当前 MLLM 最致命的维度上:MP(Multi-Person)——要把戴相机者"我"和场景里其他人区分开(如"我的抹布"在哪只手、哪只手是我的);MO(Multi-Object)——要在多个同类、外观相似的实例里认出"我交互过的那一个"(如把我用过的绿色棋子与他人的红色、未用的蓝色区分开)。这两类难点直接打在前述"空间辨别 + 长程追踪"的痛点上:只有真正把指代物锚定到"我"的轨迹,才答得对。
为了让难度可控、可量化,每道题都标注两个时间戳:提问时刻 \(t_q\) 与答案证据出现时刻 \(t_a\),且恒有 \(t_a \le t_q\)。据此把题分成两档——若 \(t_q - t_a \le 2\text{s}\) 记为 Current(答案就在当前),否则记为 Previous(答案在更早的历史里)。数据集里 \(t_q\) 与 \(t_a\) 的平均间隔约 20 秒,70.6% 的题属于 Previous,这个时间差本身就逼着模型必须回忆并维持稳定的"我"概念。评测输入是从视频起点到 \(t_q\)、以最高 1 fps 采样的固定帧数(多数模型 32 帧),刻意模拟"流式提问"的真实设定。
2. MyEgo 构建管线:用人工主导的多步流程造出"逼模型 ego-ground 才答得对"的诊断题
作者发现单靠 GPT-5/Gemini-2.5 Pro 自动出题不行——模型抓不住"个性化、上下文特定"的微妙之处,于是用一条人工为主的管线构建数据(如框架图中 C 节点的四步)。视频侧:从 Ego4D、EgoLife、CASTEL2024 三个公开数据集取材,剔除单人视频只留多人场景;EgoLife 原始是 30 秒短片,按录制顺序拼接成约 10 分钟长视频;用混入背景的黑色遮罩抹掉左上角动态时间戳水印;CASTEL2024 含大量无信息片段,裁剪成 6–20 分钟的连续活动片段。最终得到 541 段、平均 9.2 分钟的视频(Ego4D 182 / EgoLife 257 / CASTEL2024 102)。标注侧:招募并培训 10 名学生按三条原则人工出题——Egocentric(必须第一人称口吻)、Personalized(内容必须凸显"我"与他人的区别、迫使模型先判断哪个物体/动作属于戴相机者)、Visual Answer(答案简短且在视频里可见),同一标注者同时标注 GT 答案与 \(t_q\)/\(t_a\),共得 5,012 道开放式(OE)问题。
为支持更标准化的评测,再把 OE 题增强成多选(MC):用 Gemini-2.5 Pro 输入"视频+问题+GT"生成 4 个可在视频中验证存在的干扰项,优先选择时序相关(出现在 \(t_q\) 或 \(t_a\))或语境混淆(如"他人做的动作 vs 我做的")的干扰;yes/no 题视为 2 选项。关键的去偏过滤一步:仿照已有做法,只给视频帧 + 选项(不给问题)喂给 Gemini-2.5 Pro 和 GPT-5,两模型都能猜对的题说明"光看选项就能蒙",将其挑出并人工重做干扰项,确保答对必须真正 ego-ground。最终 5,012 题同时具备 OE 与 MC 形式,MC 中含 953 道 2 选、4,059 道 5 选。
3. 受控探针分析:三组对照实验把失败精确定位到"记忆/检索"而非"看不懂"
光报准确率说明不了根因,作者设计三组受控对照。(a) Q&A moment-aware 采样 vs 均匀采样:不再均匀采样,而是在 \(t_a\) 与 \(t_q\) 各自的 \(\pm 1.5\text{s}\) 区间内各取 8 帧、拼成 16 帧输入(两区间重叠则合并后均匀取 16 帧)。若只要把关键帧直接喂给模型就大幅涨点,就证明模型不是"看不懂"而是"没采到/记不住"关键证据。(b) 帧数分析:把 InternVL3-8B、LLaVA-Video 的输入帧数从 8 扫到 64(均匀采样),以及在 MC 设定下从 \(t_q\) 往回以 1 fps 采 1–48 帧(backward sampling),检验"多帧是否一定更好"。(c) personalization-aware prompting 消融:对 prompt 做两种系统改动——Enhanced(把问题里的"I""my"替换成"the camera wearer('s)",强提醒"我"指谁)与 Remove(彻底去掉个性化线索),测模型对"是否被明确告知要做个性化推理"的敏感度。三组探针共同把结论钉死:模型缺的是长程记忆、时序追踪与精准检索,而非基础视觉理解。
实验关键数据¶
主实验¶
评测覆盖闭源(GPT-5、Gemini-2.5 Pro)与一大批开源 MLLM(Qwen2.5/3-VL、InternVL2.5/3/3.5、LLaVA-OneVision/Video、MiniCPM-V 4.5、LongVA/LongVU、Flash-VStream、Dispider 等),并用 2 名未参与标注的学生在 300 题子集上测人类水平。OE 用 GPT-5 mini 做二元判分(与人类一致率 94%),同时给 0–5 的 match Score;MC 报准确率。
| 模型 | MC-2 | MC-5 | OE-Cur. | OE-Pre. | OE-Avg. (Acc) |
|---|---|---|---|---|---|
| 人类 | 95.1 | 92.1 | 84.0 | 85.0 | 84.7 |
| GPT-5(闭源) | 66.4 | 53.7 | 51.1 | 44.0 | 46.1 |
| Gemini-2.5 Pro(闭源) | 61.8 | 45.5 | 42.4 | 40.3 | 40.9 |
| Qwen3-VL-8B-Instruct | 55.0 | 36.6 | 37.4 | 36.0 | 36.4(开源 OE 最佳) |
| InternVL3-8B | 54.5 | 38.4 | 34.7 | 34.1 | 34.3(开源 MC 较强) |
| LLaVA-Video | 54.8 | 36.0 | 37.4 | 33.9 | 35.0 |
| InternVL2.5-8B | 53.1 | 36.6 | 27.2 | 23.5 | 24.5 |
关键观察:① 所有模型落后人类 33%~55%,GPT-5 综合最强但没有任何模型在所有类别都领先;② 多数模型在 2 选 MC 上只到约 50%(接近随机),因为干扰项被刻意做成"不真正锚定提问者就会被误导";③ InternVL 系列从 MC 转 OE 大幅掉点,暗示其 MC 成绩多靠"选项捷径"而非忠实多模态推理;④ Previous 题普遍比 Current 难,印证追踪/记忆是瓶颈。
消融与受控分析¶
Q&A moment-aware 采样(仅 16 帧 vs 均匀采样)显著涨点,且 Previous 题涨得更猛:
| 模型 | 采样 | Acc@Cur. | Acc@Pre. |
|---|---|---|---|
| Gemini-2.5 Pro | 均匀 → Q&A | 42.4 → 49.3 (↑6.9) | 40.3 → 51.5 (↑11.2) |
| Qwen2.5-VL-7B | 均匀 → Q&A | 37.7 → 43.4 (↑5.7) | 33.2 → 42.4 (↑9.2) |
| Qwen3-VL-8B-Think | 均匀 → Q&A | 38.4 → 41.3 (↑2.9) | 32.0 → 41.1 (↑9.1) |
| LLaVA-Video | 均匀 → Q&A | 36.3 → 37.7 (↑1.4) | 33.7 → 41.6 (↑7.9) |
personalization prompt 消融(Enhanced 提醒"我"指谁 / Remove 去掉个性化线索):
| 模型 | OE(Orig→Enh→Rem) | MC(Orig→Enh→Rem) |
|---|---|---|
| InternVL3.5-8B | 33.1 → 33.2 → 31.7 (↓1.4) | 39.5 → 41.1 → 38.5 |
| LLaVA-Video | 34.5 → 35.9 → 35.3 | 37.5 → 38.1 → 37.5 |
关键发现¶
- 更多帧 ≠ 更好:均匀采样下 InternVL3-8B 在 16 帧达峰、之后略降;LongVA/LongVU 用 128 帧相比默认 32 帧在 Current/Previous 上都没提升。作者推测多帧引入噪声,反而污染本就只部分可见的 ego 线索。MC 的 backward 采样里,1→8 帧涨幅最大(+6.8%/+7.1%),之后进入平台期——信息相关性比数量更关键。
- "思考"与"放大规模"都救不了:Qwen3-VL-8B-Thinking、InternVL3.5-8B-Thinking 相比非思考版几乎无增益,与"长 CoT 在通用视频任务有帮助"的已有结论冲突;同族里 4B 小模型甚至能持平/超过大模型,说明通用规模化解决不了 MyEgo。
- 准确率随时间衰减:均匀采样下,第 1 分钟内提问准确率最高,8 分钟后最低;而 Q&A moment 采样在每个时间分箱都稳定超过均匀采样,进一步坐实"关键帧 grounding"的重要性。
- Enhanced prompt 整体小幅有益、Remove 普遍掉点:模型对 prompt 改动不极端敏感,但"明确提醒 I 指戴相机者"通常有帮助,去掉个性化线索则普遍降分(InternVL3.5-8B 掉 1.4–1.6%)。
亮点与洞察¶
- 把抽象的"理解我"做成可量化诊断:双时间戳 \(t_q\)/\(t_a\) + Current/Previous 二分,是本文最巧的设计——它把"看懂当前帧"和"记住过去的我"两种能力解耦,让失败可定位,这套时间戳协议可迁移到任何需要考察长程记忆的流式 VideoQA。
- "不给问题、只看选项+帧"的去偏过滤很值得借鉴:用两个强模型当"作弊探测器",凡是不看问题也能蒙对的题就重做干扰项,从数据侧逼出 ego-grounding 的真实难度,避免基准被选项捷径刷分。
- 最"啊哈"的反直觉点:思维链和模型规模在这里集体失效,且更多帧反而可能更差——提示"个性化第一人称理解"是一类与通用视频理解正交的能力,靠堆算力/堆帧/堆推理都补不上,必须显式建模记忆与身份锚定。
局限与展望¶
- 只诊断、不解决:本文是基准 + 分析,没给出能真正做好 ego-grounding 的模型;Q&A moment 采样虽涨点,但它依赖"已知答案时刻"这一 oracle 信息,现实里恰恰需要模型自己去检索关键时刻。
- 评测依赖 LLM 评判:OE 用 GPT-5 mini 判分(一致率 94% 已不错,但仍有 6% 偏差),可能对措辞不同但语义正确的答案有系统性误差。⚠️ 具体偏差分布以原文 Supplementary 为准。
- MC 干扰项由 Gemini 生成:尽管有人工过滤与重做,自动生成的干扰项仍可能引入风格偏差;2 选题多数模型仅约随机水平,也说明 MC 难度分布不均。
- 改进方向:作者明确指向短期"更强长程记忆"、长期"真正的个性化推理",以及"更智能的关键时刻检测"(替代 oracle 采样)——把"该看哪一段"做成可学习模块,是最直接的后续。
相关工作与启发¶
- vs EgoSchema / EgoMemoria / EgoThink:它们测通用第一人称理解,MyEgo 专测"区分我 vs 他人、我的物体 vs 相似干扰物"的个性化指代,难度维度正交。
- vs QAEgo4D / EgoLifeQA:同样强调情景记忆,但它们不要求把回忆到的时刻链接回当前场景去 ego-ground 戴相机者,MyEgo 正是补这一环。
- vs EgoTextVQA / EgoBlind:同属自我中心助手方向,但分别聚焦场景文字、盲人辅助;MyEgo 聚焦长视频流中的个性化 ego-grounding。
- vs 个性化 VLM(靠额外视觉范例/文本画像适配用户):本文不引入外部用户画像,而是要求模型直接从过去的自我中心视频本身做个性化,这需要前人较少探索的视觉记忆与身份追踪。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个把"个性化 ego-grounding"做成可诊断基准,MP/MO + 双时间戳的设计切口很准。
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖开/闭源、思考/非思考、大/小规模 + 人类基线,三组受控探针把失败根因钉得很实。
- 写作质量: ⭐⭐⭐⭐ 动机与失败案例讲得清楚;部分分析细节散在 Supplementary,正文略需跳读。
- 价值: ⭐⭐⭐⭐⭐ 暴露了通用 MLLM 在第一人称长程记忆上的硬伤,为可穿戴个性化助手指明了明确研究方向。