Ego-1K: A Large-Scale Multiview Video Dataset for Egocentric Vision¶
会议: CVPR 2026
arXiv: 2603.13741
代码: 数据集
领域: 3D视觉
关键词: 第一人称视觉, 多视角数据集, 动态场景重建, 新视角合成, 手物交互
一句话总结¶
提出 Ego-1K,一个包含 956 段短视频的大规模时间同步第一人称多视角视频数据集(12+4 相机、60Hz),填补了第一人称动态 3D 重建领域的数据空白,并展示立体深度引导可大幅提升 4D 新视角合成质量。
研究背景与动机¶
混合现实设备和第一人称世界建模需要从佩戴者视角进行逼真的 4D 重建。但现有数据集存在关键缺口:
- NVS 数据集(如 Neural 3D Video、DiVA360):提供多视角但为外心视角(exocentric),缺乏第一人称视角
- 第一人称数据集(如 Ego4D、EPIC-KITCHENS):规模大但以单目/双目为主,关注活动识别而非 3D 重建
- 多视角第一人称数据集(如 EgoExo4D、HOT3D):仅 2-3 个第一人称相机,视角数量不足
核心需求:同时满足大规模、高相机数、第一人称视角、精确同步的动态场景数据集。该数据集特有的挑战包括近距离手部运动带来的大视差、快速图像运动和频繁遮挡。
方法详解¶
整体框架¶
Ego-1K 不是算法论文,而是数据集+基准论文。核心贡献包括:(1) 设计并构建多相机头戴采集系统;(2) 提出立体一致性评估协议;(3) 提出 4D NVS 评估协议;(4) 提出立体深度引导的 3DGS 基线。
关键设计¶
-
多相机采集系统:定制头戴设备集成 Quest 3 头显(4 个前向相机)+ 12 个外部鱼眼相机(8MP 全局快门、190° FOV、f2.8),所有 16 个相机通过无线同步器硬件同步至 60Hz。12 个外部相机通过 USB 3.1 连接到背包电脑(双 8 端口 USB 适配器),以 8-bit raw Bayer 格式流式传输。系统还包含 2 个 iToF 传感器(30Hz 交替采集)和 IMU(800Hz),总原始数据量约 15 GB/s。设计动机:现有头戴设备最多 2-3 个相机,不足以支撑稠密 3D 重建。
-
标定系统(离线 + 在线):
- 离线标定:实验室环境使用 5 个大型 Calibu 标定板,求解所有相机内外参
- 在线标定:补偿镜头运动导致的 0.1-0.2° 旋转偏移和温度引起的焦距变化(对应 1-3 像素偏移),优化相机朝向和焦距,保持其他参数固定
- 在线标定使中位 MAD 评分降低 35%
-
研究版数据集:将 12 个鱼眼相机去畸变为 6 对校正立体对(1280×1280, 130° 水平 FOV),便于处理。不含 Quest 3 RGB 相机(卷帘快门、分辨率和色彩配置与外部相机不同)。单段录像约 19 GB,完整数据集 17.5 TB。
-
立体深度引导的 3DGS 基线:核心发现是现有 NVS 方法在该数据集上严重不足,但立体基础模型能提供较好的深度估计。因此提出:
- 用 Foundation Stereo 双向运行(L→R 和 R→L)获取深度图
- TSDF 融合所有立体深度图得到水密表面
- 从融合表面采样点(含法线和颜色)初始化 3D Gaussians
- 用少量迭代微调,最小化光度损失 \(\mathcal{L}=(1-\lambda)\mathcal{L}_1 + \lambda\mathcal{L}_{\text{D-SSIM}}\)(\(\lambda=0.1\))
- 每帧独立优化,构成稠密 4D 重建
损失函数 / 训练策略¶
- 评估不涉及模型训练,仅微调 3DGS
- 训练/测试划分:10 个训练视角 + 2 个测试视角(目标立体对 3-4)
- 实验子集:10% 数据集(96 段录像)
实验关键数据¶
主实验¶
4D NVS 重建评估(目标对 3-4 为测试视角,其余 10 个视角训练):
| 方法 | PSNR ↑ | SSIM ↑ | LPIPS ↓ |
|---|---|---|---|
| 3DGS(逐帧) | 21.22 | 0.709 | 0.260 |
| K-Planes | 16.46 | 0.597 | 0.443 |
| Spacetime Gaussians | 24.76 | 0.780 | 0.270 |
| 3DGS + 立体引导 | 29.12 | 0.830 | 0.115 |
立体引导比原始 3DGS 提升 7.9 dB PSNR,比 Spacetime Gaussians 提升 4.4 dB。
消融实验¶
立体方法一致性评估(将 5 对视差图 warp 到目标对计算一致性):
| 立体方法 | MAD ↓ (mm) | MAD<1mm ↑ | SD ↓ (mm) |
|---|---|---|---|
| Foundation Stereo | 1.6 | 74.0% | 42.5 |
| Selective-Stereo | 8.0 | 0.0% | 46.2 |
| BiDAStereo | 2.2 | 3.1% | 8.3 |
| StereoAnywhere | 1.7 | 29.5% | 10.4 |
Foundation Stereo 整体一致性最佳(MAD 最低),BiDAStereo 极端离群值最少(SD 最低)。
关键发现¶
- 现有 NVS 方法(3DGS、K-Planes)在第一人称动态场景中严重不足,K-Planes 仅 16.46 dB
- 动态模型(K-Planes、Spacetime Gaussians)是为物体中心或固定位姿多视角视频设计的,无法有效处理自运动 + 近距离手部运动 + 大视差的组合
- 对于近距离动态物体(手),性能差距更大;对于远处物体(旁观者),差距较小
- 在线标定对立体估计精度至关重要,使 MAD 降低 35%
亮点与洞察¶
- 填补了一个明确的数据空白:领域内首个同时满足大规模 + 高相机数 + 第一人称 + 精确同步的动态场景数据集
- 提出的立体一致性评估协议(无需 GT 深度)非常实用,可迁移到其他多视角系统
- 核心发现有启发性:逐帧初始化比端到端动态模型更有效,关键瓶颈在于几何初始化而非时序建模
- 数据集设计细节值得学习:在线标定、全局快门选择、鱼眼去畸变参数选择等工程决策都有充分理由
局限与展望¶
- Quest 3 的 4 个相机未纳入研究版数据集(卷帘快门差异),利用率可提升
- iToF 数据因运动伪影和相位歧义未使用,未来可结合多模态融合
- 当前基线是逐帧 3DGS,缺乏时序一致性建模;可探索时空正则化或场景流先验
- 数据集聚焦手物交互,场景多样性可进一步扩展(如户外、多人协作)
- 原始数据集 88 TB,存储和带宽门槛较高
- 缺乏语义标注(手部关键点、物体类别等),限制了下游任务评测
相关工作与启发¶
- Ego4D / EgoExo4D:大规模第一人称数据集,但相机少、关注活动识别
- Neural 3D Video / DiVA360:多视角 NVS 数据集,但为外心视角
- Foundation Stereo:表现最佳的立体基础模型,作为几何先验效果显著
- 3DGS:新视角合成骨干,+ 立体初始化大幅提升
- 启发:随着智能眼镜普及,第一人称多视角重建是重要方向;几何先验比纯学习方法更可靠
评分¶
- 新颖性: ⭐⭐⭐ 数据集贡献为主,方法侧立体引导思路较直觉但验证充分
- 实验充分度: ⭐⭐⭐⭐ 立体评估 + NVS 评估 + 多基线对比,评估协议设计严谨
- 写作质量: ⭐⭐⭐⭐ 数据集描述详尽,表格对比全面,工程细节充分
- 价值: ⭐⭐⭐⭐ 填补了明确数据空白,将推动第一人称 3D/4D 重建研究