Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation¶

会议: CVPR 2025
arXiv: 2411.18335
代码: https://vita-epfl.github.io/Helvipad/ (项目页面)
领域: 自动驾驶
关键词: 全景深度估计, 立体匹配, 等距矩形投影, 360°相机, 数据集

一句话总结¶

提出Helvipad——首个用于全景立体深度估计的真实世界数据集（40K帧、上下双360°相机+LiDAR），并引入极角输入和环形填充两个适配策略来改进立体匹配模型处理等距矩形投影图像，所提360-IGEV-Stereo在所有指标上达到最佳。

研究背景与动机¶

领域现状：立体深度估计在过去几年取得了显著进展，深度学习方法（如IGEV-Stereo）在标准数据集上表现优异。然而，这些方法和数据集主要针对标准透视相机，视场角有限。360°全景相机能提供完整的环境视场覆盖，在机器人导航、室内监控等场景下非常有用。

现有痛点：(1) 缺乏真实世界的全景立体深度数据集——现有全景数据集要么是合成的（如MP3D、SF3D），要么缺乏像素级深度标注（如JRDB），要么仅覆盖单一环境类型。(2) 等距矩形投影带来严重的球面畸变，传统为矩形图像设计的立体匹配模型直接应用效果不佳。(3) 现有全景立体方法（如360SD-Net）基于较老的架构，未能利用最新进展。

核心矛盾：全景成像在需要完整空间感知的应用中具有巨大优势，但缺乏合适的真实数据和算法适配阻碍了深度学习方法在该领域的发展。如何构建高质量数据集并适配现有最优模型？

本文目标 (1) 构建包含室内外多样场景、不同光照条件的真实世界全景立体数据集；(2) 解决LiDAR点云到360°图像的精确映射和稀疏标注增密问题；(3) 适配最新立体匹配模型以处理球面几何。

切入角度：用上下双360°相机（避免遮挡）+LiDAR构建采集平台，通过深度补全增密标注，用极角和环形填充两个轻量适配让现有SOTA模型理解全景几何。

核心 idea：构建首个真实全景立体深度数据集，并用极角输入+环形填充两个最小化修改将IGEV-Stereo适配为全景版本。

方法详解¶

整体框架¶

系统分为两部分：(1) 数据集构建——用自制采集装置（双Ricoh Theta V相机上下排列，基线19.1cm，搭配Ouster OS1-64 LiDAR）在大学校园采集29个视频序列，通过LiDAR-相机标定将3D点云投影到等距矩形图像获得深度标签，并用深度补全将标注像素比例从12%提升到61%。(2) 模型适配——在IGEV-Stereo基础上引入极角图输入和环形填充，形成360-IGEV-Stereo。

关键设计¶

LiDAR到360°图像的精确映射:
- 功能：将LiDAR 3D点云精确投影到等距矩形图像上生成深度标签
- 核心思路：在每次采集开始时，使用19×19棋盘格标定板获取LiDAR点和图像像素的对应关系。先用初始旋转平移将LiDAR坐标系对齐到相机中心，再将3D点转换到球坐标 \((r, \theta, \phi)\)，投影到等距矩形平面 \((x^{eq}, y^{eq}) = (\frac{\phi + \pi}{2\pi}W, \frac{\theta}{\pi}H)\)。通过BFGS优化最小化投影误差，最终平均对准误差仅1.7像素。球面视差定义为 \(d = \arctan(\frac{\sin(\theta_b)}{r_{bottom}/B_{camera} - \cos(\theta_b)})\)。
- 设计动机：全景图像的球面投影与标准透视投影完全不同，必须通过球坐标变换才能正确映射。精确标定是数据集质量的基础。
深度补全管线:
- 功能：将LiDAR稀疏深度标注增密，标注像素比例从12%提升到61%
- 核心思路：三步流程——(1) 时序聚合：将当前帧的点云与前后各4帧的点云合并，利用高帧率和低移速使误差可忽略。(2) 球面插值：对球面网格上的查询点，用k近邻的距离加权平均估计深度 \(r_q = \sum w_i r_i\)，权重为球坐标距离的倒数。(3) 过滤：用相对加权方差作为不确定性度量 \(\sigma^2_{r_q} = \sum w_i (\frac{r_q - r_i}{r_q})^2\)，去除高不确定性点和缺少近邻的区域（如天空）。
- 设计动机：LiDAR点云天然稀疏，直接用作训练标签会导致监督信号不足。时序聚合+插值+过滤提供了一种无需人工标注的自动增密流水线，且保证了标注质量。
360-IGEV-Stereo（全景适配的立体匹配模型）:
- 功能：将IGEV-Stereo适配为处理等距矩形投影图像
- 核心思路：两个适配。极角输入：在上下配置中，图像沿垂直方向变形构建代价体，畸变程度随极角 \(\theta\) 变化。将极角图作为额外输入通道，用共享的极角编码器（跨步卷积层）在最低分辨率（1/32）与特征网络瓶颈拼接，在1/4分辨率与上下文特征拼接。环形填充：利用360°图像水平方向的连续性，在推理时将图像左侧用右侧64列像素填充、右侧用左侧像素填充，使网络能利用跨边界的上下文信息。代价体改为垂直变形构建。训练时额外加入光度数据增强应对数据集中的光照变化。
- 设计动机：等距矩形投影的畸变随极角变化，不告知模型这一先验会导致深度估计偏差。环形填充消除了360°图像左右边界的不连续性，将LRCE从1.18m降至0.36m。

损失函数 / 训练策略¶

沿用IGEV-Stereo原始训练策略，在单块NVIDIA A100上以最大可能batch size训练，使用early stopping。训练集包含20个序列（29,407帧），测试集6个序列（10,146帧），确保室内外和夜间场景比例一致且无场景重叠。

实验关键数据¶

主实验¶

方法	立体设置	视差MAE (°) ↓	深度MAE (m) ↓	深度RMSE (m) ↓	深度MARE ↓	LRCE (m) ↓
PSMNet	标准	0.286	2.509	5.673	0.176	1.809
360SD-Net	全景	0.224	2.122	5.077	0.152	0.904
IGEV-Stereo	标准	0.225	1.860	4.474	0.146	1.203
360-IGEV-Stereo	全景	0.188	1.720	4.297	0.130	0.388

消融实验¶

配置	深度MAE ↓	深度RMSE ↓	深度MARE ↓	LRCE ↓
360-IGEV-Stereo (full)	1.720	4.297	0.130	0.388
w/o circular padding	1.726	4.314	0.130	1.153
w/o photometric augmentation	1.845	4.466	0.135	0.347

深度补全的增强效果（以深度MARE为例）：

方法	原始标签	增强标签
360SD-Net	0.17	0.15
PSMNet	~0.19	~0.18
IGEV-Stereo	~0.15	~0.146

关键发现¶

环形填充对LRCE贡献最大（1.153→0.388m），有效消除了360°图像边界不连续导致的深度跳变
光度增强对整体深度精度贡献更大（MARE: 0.135→0.130），说明光照变化是该数据集的主要挑战之一
全景适配方法（360-IGEV-Stereo、360SD-Net）在跨场景泛化中表现更好——室内训练后在夜间室外场景的性能下降更小
深度补全增强训练数据后所有方法都有提升，说明标注密度是训练质量的瓶颈
现代立体方法（IGEV-Stereo）即使不做适配也优于专门的全景方法（360SD-Net），说明架构进步比领域适配更重要，但两者结合效果最佳

亮点与洞察¶

最小化修改策略：只增加极角输入和环形填充两个轻量修改就让通用立体模型适配全景场景，增加的计算开销极小（0.24s vs 0.25s推理时间），这种"最小侵入式适配"思路可以推广到其他全景视觉任务。
自动化深度补全管线：时序聚合+球面插值+不确定性过滤的三步补全流水线完全自动化且保证了标注质量，从12%到61%的标注密度提升显著，可直接复用到其他稀疏深度数据集。
系统性的benchmark建设：不仅提供数据集，还系统对比了标准和全景方法、跨场景泛化分析、深度补全影响分析，为后续研究提供了全面的基线。

局限与展望¶

上下相机配置的19.1cm基线较短，对远距离物体的深度精度受限
LiDAR垂直视场角42.4°，图像上下边缘区域缺乏深度标签
深度补全对快速移动物体（如汽车）的时序聚合会引入误差
仅在大学校园环境采集，场景多样性不如大规模驾驶数据集
未探索单目全景深度估计基线，仅关注立体匹配

评分¶

新颖性: ⭐⭐⭐ 数据集和适配策略偏增量贡献，但填补了重要空白
实验充分度: ⭐⭐⭐⭐⭐ 多方法对比+跨场景分析+消融+深度补全验证，非常系统
写作质量: ⭐⭐⭐⭐ 数据采集和标定流程描述清晰详尽
价值: ⭐⭐⭐⭐ 填补了真实全景立体数据集空白，baseline建设为后续研究铺路