Ego-1K: A Large-Scale Multiview Video Dataset for Egocentric Vision¶
会议: CVPR 2026
arXiv: 2603.13741
代码: 数据集
领域: 3D视觉
关键词: 第一人称视觉, 多视角数据集, 动态场景重建, 新视角合成, 手物交互
一句话总结¶
提出 Ego-1K,一个包含 956 段短视频的大规模时间同步第一人称多视角视频数据集(12+4 相机、60Hz),填补了第一人称动态 3D 重建领域的数据空白,并展示立体深度引导可大幅提升 4D 新视角合成质量。
研究背景与动机¶
混合现实设备和第一人称世界建模需要从佩戴者视角进行逼真的 4D 重建。但现有数据集存在关键缺口:
- NVS 数据集(如 Neural 3D Video、DiVA360):提供多视角但为外心视角(exocentric),缺乏第一人称视角
- 第一人称数据集(如 Ego4D、EPIC-KITCHENS):规模大但以单目/双目为主,关注活动识别而非 3D 重建
- 多视角第一人称数据集(如 EgoExo4D、HOT3D):仅 2-3 个第一人称相机,视角数量不足
核心需求:同时满足大规模、高相机数、第一人称视角、精确同步的动态场景数据集。该数据集特有的挑战包括近距离手部运动带来的大视差、快速图像运动和频繁遮挡。
方法详解¶
整体框架¶
Ego-1K 不是算法论文,而是一篇数据集 + 基准论文:它要回答的问题是「能不能从佩戴者视角稠密重建动态 4D 场景」,而要回答这个问题首先得有数据。整篇工作沿着「采集 → 标定 → 整理 → 评估」四步展开:先用一套自制的多相机头戴设备把 16 路视频精确同步采下来,再用离线 + 在线两级标定把相机几何对齐,然后去畸变整理成易用的立体对发布出去,最后配上立体一致性和 4D 新视角合成两套评估协议,并给出一个立体深度引导的 3DGS 基线,证明在这份数据上「先把几何初始化好」比堆时序模型更管用。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["第一人称动态场景"] --> B["多相机采集系统<br/>16 路硬件同步相机·60Hz 流式落盘"]
B --> C["离线 + 在线两级标定<br/>实验室离线解内外参 → 每段在线吸收镜头微动/温漂"]
C --> D["研究版数据集<br/>12 路鱼眼去畸变 → 6 对校正立体对"]
D --> S
subgraph S["立体深度引导的 3DGS 基线"]
direction TB
E["Foundation Stereo 双向深度图"] --> F["TSDF 融合水密表面"]
F --> G["采点初始化 3D Gaussians"]
G --> H["逐帧光度损失微调"]
end
S --> I["稠密 4D 重建 / 新视角合成评估"]
关键设计¶
1. 多相机采集系统:用 16 路硬件同步相机把第一人称动态场景拍稠密
现有头戴设备最多 2-3 个相机,远不足以支撑稠密 3D 重建,所以作者干脆定制了一套头戴装置:以 Quest 3 头显(4 个前向相机)为基座,外挂 12 个外部鱼眼相机(8MP 全局快门、190° FOV、f2.8),全部 16 个相机经无线同步器硬件同步到 60Hz。12 个外部相机走 USB 3.1(双 8 端口适配器)连到背包电脑,以 8-bit raw Bayer 流式落盘;另配 2 个 iToF 传感器(30Hz 交替采集)和 800Hz 的 IMU,瞬时原始码率约 15 GB/s。选全局快门而非卷帘,正是为了让快速手部运动下各路图像逐行同步不撕裂——这是后面立体匹配能成立的前提。
2. 离线 + 在线两级标定:让镜头微动和温漂不毁掉立体几何
光是把相机拼起来还不够,近距离立体重建对几何精度极敏感。作者先在实验室用 5 块大型 Calibu 标定板做离线标定,一次性解出所有相机的内外参;但头戴设备在使用中镜头会有 0.1-0.2° 的旋转微动,温度变化又会让焦距漂移(折算成 1-3 像素的偏移),这些误差足以让深度估计崩坏。于是每段录像还要做在线标定:固定其余参数,只优化相机朝向和焦距来吸收这些漂移。效果很直接——在线标定让立体一致性的中位 MAD 评分再降 35%。
3. 研究版数据集:把 12 路鱼眼整理成 6 对校正立体对方便直接用
原始鱼眼数据畸变大、不好直接喂给立体/NVS 方法,作者把 12 个鱼眼相机两两去畸变成 6 对校正立体对(1280×1280、130° 水平 FOV),让使用者拿到的就是规整的 rectified 立体输入。研究版刻意剔除了 Quest 3 的 RGB 相机,因为它们是卷帘快门,分辨率与色彩配置都和外部相机不一致,混进来反而污染几何。代价是数据量不小:单段录像约 19 GB,完整研究版约 17.5 TB。
4. 立体深度引导的 3DGS 基线:用立体基础模型的几何先验救活逐帧重建
作者跑基线时发现一个关键现象:现成 NVS 方法在这份数据上普遍很差,但立体基础模型却能给出相当可靠的深度。既然瓶颈在几何初始化而非时序建模,那就把好几何喂给 3DGS。具体做法是先用 Foundation Stereo 双向(L→R 与 R→L)跑出每对的深度图,再用 TSDF 把所有立体深度融合成一张水密表面,从这张表面采点(带法线和颜色)来初始化 3D Gaussians;之后只需少量迭代微调,最小化光度损失
每帧独立优化、逐帧串起来就构成稠密 4D 重建。这条路绕开了端到端动态模型在大视差 + 自运动下的失效,把重活交给已经训得很好的立体先验。
损失函数 / 训练策略¶
- 评估不涉及模型训练,仅微调 3DGS
- 训练/测试划分:10 个训练视角 + 2 个测试视角(目标立体对 3-4)
- 实验子集:10% 数据集(96 段录像)
实验关键数据¶
主实验¶
4D NVS 重建评估(目标对 3-4 为测试视角,其余 10 个视角训练):
| 方法 | PSNR ↑ | SSIM ↑ | LPIPS ↓ |
|---|---|---|---|
| 3DGS(逐帧) | 21.22 | 0.709 | 0.260 |
| K-Planes | 16.46 | 0.597 | 0.443 |
| Spacetime Gaussians | 24.76 | 0.780 | 0.270 |
| 3DGS + 立体引导 | 29.12 | 0.830 | 0.115 |
立体引导比原始 3DGS 提升 7.9 dB PSNR,比 Spacetime Gaussians 提升 4.4 dB。
消融实验¶
立体方法一致性评估(将 5 对视差图 warp 到目标对计算一致性):
| 立体方法 | MAD ↓ (mm) | MAD<1mm ↑ | SD ↓ (mm) |
|---|---|---|---|
| Foundation Stereo | 1.6 | 74.0% | 42.5 |
| Selective-Stereo | 8.0 | 0.0% | 46.2 |
| BiDAStereo | 2.2 | 3.1% | 8.3 |
| StereoAnywhere | 1.7 | 29.5% | 10.4 |
Foundation Stereo 整体一致性最佳(MAD 最低),BiDAStereo 极端离群值最少(SD 最低)。
关键发现¶
- 现有 NVS 方法(3DGS、K-Planes)在第一人称动态场景中严重不足,K-Planes 仅 16.46 dB
- 动态模型(K-Planes、Spacetime Gaussians)是为物体中心或固定位姿多视角视频设计的,无法有效处理自运动 + 近距离手部运动 + 大视差的组合
- 对于近距离动态物体(手),性能差距更大;对于远处物体(旁观者),差距较小
- 在线标定对立体估计精度至关重要,使 MAD 降低 35%
亮点与洞察¶
- 填补了一个明确的数据空白:领域内首个同时满足大规模 + 高相机数 + 第一人称 + 精确同步的动态场景数据集
- 提出的立体一致性评估协议(无需 GT 深度)非常实用,可迁移到其他多视角系统
- 核心发现有启发性:逐帧初始化比端到端动态模型更有效,关键瓶颈在于几何初始化而非时序建模
- 数据集设计细节值得学习:在线标定、全局快门选择、鱼眼去畸变参数选择等工程决策都有充分理由
局限与展望¶
- Quest 3 的 4 个相机未纳入研究版数据集(卷帘快门差异),利用率可提升
- iToF 数据因运动伪影和相位歧义未使用,未来可结合多模态融合
- 当前基线是逐帧 3DGS,缺乏时序一致性建模;可探索时空正则化或场景流先验
- 数据集聚焦手物交互,场景多样性可进一步扩展(如户外、多人协作)
- 原始数据集 88 TB,存储和带宽门槛较高
- 缺乏语义标注(手部关键点、物体类别等),限制了下游任务评测
相关工作与启发¶
- Ego4D / EgoExo4D:大规模第一人称数据集,但相机少、关注活动识别
- Neural 3D Video / DiVA360:多视角 NVS 数据集,但为外心视角
- Foundation Stereo:表现最佳的立体基础模型,作为几何先验效果显著
- 3DGS:新视角合成骨干,+ 立体初始化大幅提升
- 启发:随着智能眼镜普及,第一人称多视角重建是重要方向;几何先验比纯学习方法更可靠
评分¶
- 新颖性: ⭐⭐⭐ 数据集贡献为主,方法侧立体引导思路较直觉但验证充分
- 实验充分度: ⭐⭐⭐⭐ 立体评估 + NVS 评估 + 多基线对比,评估协议设计严谨
- 写作质量: ⭐⭐⭐⭐ 数据集描述详尽,表格对比全面,工程细节充分
- 价值: ⭐⭐⭐⭐ 填补了明确数据空白,将推动第一人称 3D/4D 重建研究