Ego-1K: A Large-Scale Multiview Video Dataset for Egocentric Vision¶

会议: CVPR 2026
arXiv: 2603.13741
代码: 数据集
领域: 3D视觉
关键词: 第一人称视觉, 多视角数据集, 动态场景重建, 新视角合成, 手物交互

一句话总结¶

提出 Ego-1K，一个包含 956 段短视频的大规模时间同步第一人称多视角视频数据集（12+4 相机、60Hz），填补了第一人称动态 3D 重建领域的数据空白，并展示立体深度引导可大幅提升 4D 新视角合成质量。

研究背景与动机¶

混合现实设备和第一人称世界建模需要从佩戴者视角进行逼真的 4D 重建。但现有数据集存在关键缺口：

NVS 数据集（如 Neural 3D Video、DiVA360）：提供多视角但为外心视角（exocentric），缺乏第一人称视角
第一人称数据集（如 Ego4D、EPIC-KITCHENS）：规模大但以单目/双目为主，关注活动识别而非 3D 重建
多视角第一人称数据集（如 EgoExo4D、HOT3D）：仅 2-3 个第一人称相机，视角数量不足

核心需求：同时满足大规模、高相机数、第一人称视角、精确同步的动态场景数据集。该数据集特有的挑战包括近距离手部运动带来的大视差、快速图像运动和频繁遮挡。

方法详解¶

整体框架¶

Ego-1K 不是算法论文，而是数据集+基准论文。核心贡献包括：(1) 设计并构建多相机头戴采集系统；(2) 提出立体一致性评估协议；(3) 提出 4D NVS 评估协议；(4) 提出立体深度引导的 3DGS 基线。

关键设计¶

多相机采集系统：定制头戴设备集成 Quest 3 头显（4 个前向相机）+ 12 个外部鱼眼相机（8MP 全局快门、190° FOV、f2.8），所有 16 个相机通过无线同步器硬件同步至 60Hz。12 个外部相机通过 USB 3.1 连接到背包电脑（双 8 端口 USB 适配器），以 8-bit raw Bayer 格式流式传输。系统还包含 2 个 iToF 传感器（30Hz 交替采集）和 IMU（800Hz），总原始数据量约 15 GB/s。设计动机：现有头戴设备最多 2-3 个相机，不足以支撑稠密 3D 重建。
标定系统（离线 + 在线）：
- 离线标定：实验室环境使用 5 个大型 Calibu 标定板，求解所有相机内外参
- 在线标定：补偿镜头运动导致的 0.1-0.2° 旋转偏移和温度引起的焦距变化（对应 1-3 像素偏移），优化相机朝向和焦距，保持其他参数固定
- 在线标定使中位 MAD 评分降低 35%
研究版数据集：将 12 个鱼眼相机去畸变为 6 对校正立体对（1280×1280, 130° 水平 FOV），便于处理。不含 Quest 3 RGB 相机（卷帘快门、分辨率和色彩配置与外部相机不同）。单段录像约 19 GB，完整数据集 17.5 TB。
立体深度引导的 3DGS 基线：核心发现是现有 NVS 方法在该数据集上严重不足，但立体基础模型能提供较好的深度估计。因此提出：
- 用 Foundation Stereo 双向运行（L→R 和 R→L）获取深度图
- TSDF 融合所有立体深度图得到水密表面
- 从融合表面采样点（含法线和颜色）初始化 3D Gaussians
- 用少量迭代微调，最小化光度损失 \(\mathcal{L}=(1-\lambda)\mathcal{L}_1 + \lambda\mathcal{L}_{\text{D-SSIM}}\)（\(\lambda=0.1\)）
- 每帧独立优化，构成稠密 4D 重建

损失函数 / 训练策略¶

评估不涉及模型训练，仅微调 3DGS
训练/测试划分：10 个训练视角 + 2 个测试视角（目标立体对 3-4）
实验子集：10% 数据集（96 段录像）

实验关键数据¶

主实验¶

4D NVS 重建评估（目标对 3-4 为测试视角，其余 10 个视角训练）：

方法	PSNR ↑	SSIM ↑	LPIPS ↓
3DGS（逐帧）	21.22	0.709	0.260
K-Planes	16.46	0.597	0.443
Spacetime Gaussians	24.76	0.780	0.270
3DGS + 立体引导	29.12	0.830	0.115

立体引导比原始 3DGS 提升 7.9 dB PSNR，比 Spacetime Gaussians 提升 4.4 dB。

消融实验¶

立体方法一致性评估（将 5 对视差图 warp 到目标对计算一致性）：

立体方法	MAD ↓ (mm)	MAD<1mm ↑	SD ↓ (mm)
Foundation Stereo	1.6	74.0%	42.5
Selective-Stereo	8.0	0.0%	46.2
BiDAStereo	2.2	3.1%	8.3
StereoAnywhere	1.7	29.5%	10.4

Foundation Stereo 整体一致性最佳（MAD 最低），BiDAStereo 极端离群值最少（SD 最低）。

关键发现¶

现有 NVS 方法（3DGS、K-Planes）在第一人称动态场景中严重不足，K-Planes 仅 16.46 dB
动态模型（K-Planes、Spacetime Gaussians）是为物体中心或固定位姿多视角视频设计的，无法有效处理自运动 + 近距离手部运动 + 大视差的组合
对于近距离动态物体（手），性能差距更大；对于远处物体（旁观者），差距较小
在线标定对立体估计精度至关重要，使 MAD 降低 35%

亮点与洞察¶

填补了一个明确的数据空白：领域内首个同时满足大规模 + 高相机数 + 第一人称 + 精确同步的动态场景数据集
提出的立体一致性评估协议（无需 GT 深度）非常实用，可迁移到其他多视角系统
核心发现有启发性：逐帧初始化比端到端动态模型更有效，关键瓶颈在于几何初始化而非时序建模
数据集设计细节值得学习：在线标定、全局快门选择、鱼眼去畸变参数选择等工程决策都有充分理由

局限与展望¶

Quest 3 的 4 个相机未纳入研究版数据集（卷帘快门差异），利用率可提升
iToF 数据因运动伪影和相位歧义未使用，未来可结合多模态融合
当前基线是逐帧 3DGS，缺乏时序一致性建模；可探索时空正则化或场景流先验
数据集聚焦手物交互，场景多样性可进一步扩展（如户外、多人协作）
原始数据集 88 TB，存储和带宽门槛较高
缺乏语义标注（手部关键点、物体类别等），限制了下游任务评测

评分¶

新颖性: ⭐⭐⭐ 数据集贡献为主，方法侧立体引导思路较直觉但验证充分
实验充分度: ⭐⭐⭐⭐ 立体评估 + NVS 评估 + 多基线对比，评估协议设计严谨
写作质量: ⭐⭐⭐⭐ 数据集描述详尽，表格对比全面，工程细节充分
价值: ⭐⭐⭐⭐ 填补了明确数据空白，将推动第一人称 3D/4D 重建研究