Camera Height Doesn't Change: Unsupervised Training for Metric Monocular Road-Scene Depth Estimation¶

会议: ECCV 2024
arXiv: 2312.04530
代码: 无
领域: 3D视觉
关键词: 单目深度估计, 度量尺度, 自监督学习, 相机高度不变性, 车辆尺寸先验

一句话总结¶

提出FUMET训练框架,利用道路上检测到的车辆尺寸先验聚合为相机高度估计,并利用相机高度在同一视频序列中不变的事实作为度量尺度监督,使任意单目深度网络无需辅助传感器即可学习绝对尺度。

研究背景与动机¶

单目深度估计(MDE)对自动驾驶至关重要。自监督方法降低了对GT深度的依赖,但存在尺度模糊问题。现有解决方案需要辅助传感器: 速度(GPS)、IMU/重力、相机高度(人工标注),无法利用互联网上大量行车视频。

核心洞察: 道路上的车辆是刚性物体,其实际尺寸不变且对每个品牌型号唯一。将不同帧中的车辆尺寸线索聚合为相机高度,利用其在同一序列中不变的事实作为监督信号。

方法详解¶

整体框架¶

FUMET在标准自监督MDE训练基础上增加度量尺度学习,包含深度/位姿网络、相机高度估计、Silhouette Projector和学习型尺寸先验(LSP)。

关键设计¶

1. 尺度感知自监督学习¶

对道路区域像素,从深度图计算法向量后得到逐像素相机高度,取中位数作为帧级估计。通过Silhouette Projector获取尺度因子得到缩放后的相机高度。跨epoch用加权移动平均优化伪标签,使监督信号越来越准确。

2. Silhouette Projector¶

利用两个事实鲁棒估计尺度因子: 物体轮廓投影到垂直于地面平面的高度不随姿态变化; 只要顶部可见即使部分遮挡也可计算。流程: 深度重建点云 -> 正交投影 -> 轮廓高度 -> 与LSP对比得到尺度因子。离群点过滤阈值T=0.2。

3. 学习型尺寸先验(LSP)¶

从车辆掩码图像预测三维尺寸(高度+宽度+长度)。训练数据来自网络爬取,无需人工标注。丰富数据增强模拟遮挡和截断。预测宽度/长度有助于提升高度精度。

损失函数 / 训练策略¶

总损失 = 重建损失(SSIM+L1) + 平滑损失 + 相机高度损失 + 辅助粗几何损失。

关键策略: 对数动态调权——辅助损失权重从1减小,相机高度损失权重从0增大,mid epoch后固定。因为训练初期深度不可靠,过度依赖相机高度损失不稳定; 训练后期辅助损失的平面假设不精确会降低精度。α=0.01, β=1.0, 50 epochs。

实验关键数据¶

主实验: KITTI Eigen测试集(640x192)¶

方法	监督信号	AbsRel↓	SqRel↓	RMSE↓	δ<1.25↑
G2S	GPS	0.109	0.860	4.855	0.865
PackNet-SfM	速度	0.111	0.829	4.788	0.864
VADepth	相机高度(GT)	0.120	0.975	4.971	0.867
DynaDepth	IMU+V+G	0.109	0.787	4.705	0.869
FUMET	无	0.108	0.785	4.736	0.871
VADepth+FUMET	无	0.108	0.809	4.572	0.883

Cityscapes数据集¶

方法	AbsRel↓	RMSE↓	δ<1.25↑
G2S	4.156	58.89	0.046
VADepth	0.363	11.95	0.295
FUMET	0.125	6.359	0.858

弱监督方法因依赖不可靠传感器数据大幅退化,FUMET因仅依赖RGB视频而稳健。

混合数据集训练(Argoverse2+Lyft+A2D2+DDAD)¶

训练数据	AbsRel↓	RMSE↓	δ<1.25↑
KITTI	0.103	4.708	0.903
Mixed	0.113	5.009	0.883
Mixed+KITTI	0.082	4.307	0.923

消融实验¶

相机高度损失贡献大于辅助几何损失
跨帧高度优化比逐帧独立使用先验更稳定
动态调权+两种损失联合使用效果最好(AbsRel 0.108)
离线预计算固定相机高度甚至略优于在线优化
离线预训练+在线微调可达最高精度

关键发现¶

最简单的Monodepth2+FUMET即优于需要GT尺度标签的弱监督方法
FUMET不仅学会度量尺度,还提升几何精度(median scaling后仍有改善)
VADepth需要GT相机高度但精度反而不如FUMET,说明精确测量相机高度本身困难

亮点与洞察¶

核心洞察精妙: 相机高度不变将分散的车辆尺寸线索聚合为稳定的监督信号
架构无关性: 可即插即用到任意单目深度网络
真正的无监督度量深度: 仅需单目行车视频+相机内参
混合数据集训练: 不同相机高度的数据集可统一训练
推理零开销: 计算成本与原始MDE模型完全相同

局限与展望¶

依赖车辆检测: 对无车场景可能失效
LSP泛化性: 对非常见车型可能不准确
限于驾驶场景: 假设道路场景中的车辆和地面平面
未来可扩展到其他已知尺寸物体(行人、交通标志)

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 相机高度不变性作为监督信号极其巧妙
实用性: ⭐⭐⭐⭐⭐ — 真正实现无辅助传感器的度量深度
实验充分度: ⭐⭐⭐⭐⭐ — 多数据集、多架构、全面消融
写作质量: ⭐⭐⭐⭐ — 逻辑清晰,各组件动机明确