Camera Height Doesn't Change: Unsupervised Training for Metric Monocular Road-Scene Depth Estimation¶
会议: ECCV 2024
arXiv: 2312.04530
代码: 无
领域: 3D视觉
关键词: 单目深度估计, 度量尺度, 自监督学习, 相机高度不变性, 车辆尺寸先验
一句话总结¶
提出FUMET训练框架,利用道路上检测到的车辆尺寸先验聚合为相机高度估计,并利用相机高度在同一视频序列中不变的事实作为度量尺度监督,使任意单目深度网络无需辅助传感器即可学习绝对尺度。
研究背景与动机¶
单目深度估计(MDE)对自动驾驶至关重要。自监督方法降低了对GT深度的依赖,但存在尺度模糊问题。现有解决方案需要辅助传感器: 速度(GPS)、IMU/重力、相机高度(人工标注),无法利用互联网上大量行车视频。
核心洞察: 道路上的车辆是刚性物体,其实际尺寸不变且对每个品牌型号唯一。将不同帧中的车辆尺寸线索聚合为相机高度,利用其在同一序列中不变的事实作为监督信号。
方法详解¶
整体框架¶
FUMET在标准自监督MDE训练基础上增加度量尺度学习,包含深度/位姿网络、相机高度估计、Silhouette Projector和学习型尺寸先验(LSP)。
关键设计¶
1. 尺度感知自监督学习¶
对道路区域像素,从深度图计算法向量后得到逐像素相机高度,取中位数作为帧级估计。通过Silhouette Projector获取尺度因子得到缩放后的相机高度。跨epoch用加权移动平均优化伪标签,使监督信号越来越准确。
2. Silhouette Projector¶
利用两个事实鲁棒估计尺度因子: 物体轮廓投影到垂直于地面平面的高度不随姿态变化; 只要顶部可见即使部分遮挡也可计算。流程: 深度重建点云 -> 正交投影 -> 轮廓高度 -> 与LSP对比得到尺度因子。离群点过滤阈值T=0.2。
3. 学习型尺寸先验(LSP)¶
从车辆掩码图像预测三维尺寸(高度+宽度+长度)。训练数据来自网络爬取,无需人工标注。丰富数据增强模拟遮挡和截断。预测宽度/长度有助于提升高度精度。
损失函数 / 训练策略¶
总损失 = 重建损失(SSIM+L1) + 平滑损失 + 相机高度损失 + 辅助粗几何损失。
关键策略: 对数动态调权——辅助损失权重从1减小,相机高度损失权重从0增大,mid epoch后固定。因为训练初期深度不可靠,过度依赖相机高度损失不稳定; 训练后期辅助损失的平面假设不精确会降低精度。α=0.01, β=1.0, 50 epochs。
实验关键数据¶
主实验: KITTI Eigen测试集(640x192)¶
| 方法 | 监督信号 | AbsRel↓ | SqRel↓ | RMSE↓ | δ<1.25↑ |
|---|---|---|---|---|---|
| G2S | GPS | 0.109 | 0.860 | 4.855 | 0.865 |
| PackNet-SfM | 速度 | 0.111 | 0.829 | 4.788 | 0.864 |
| VADepth | 相机高度(GT) | 0.120 | 0.975 | 4.971 | 0.867 |
| DynaDepth | IMU+V+G | 0.109 | 0.787 | 4.705 | 0.869 |
| FUMET | 无 | 0.108 | 0.785 | 4.736 | 0.871 |
| VADepth+FUMET | 无 | 0.108 | 0.809 | 4.572 | 0.883 |
Cityscapes数据集¶
| 方法 | AbsRel↓ | RMSE↓ | δ<1.25↑ |
|---|---|---|---|
| G2S | 4.156 | 58.89 | 0.046 |
| VADepth | 0.363 | 11.95 | 0.295 |
| FUMET | 0.125 | 6.359 | 0.858 |
弱监督方法因依赖不可靠传感器数据大幅退化,FUMET因仅依赖RGB视频而稳健。
混合数据集训练(Argoverse2+Lyft+A2D2+DDAD)¶
| 训练数据 | AbsRel↓ | RMSE↓ | δ<1.25↑ |
|---|---|---|---|
| KITTI | 0.103 | 4.708 | 0.903 |
| Mixed | 0.113 | 5.009 | 0.883 |
| Mixed+KITTI | 0.082 | 4.307 | 0.923 |
消融实验¶
- 相机高度损失贡献大于辅助几何损失
- 跨帧高度优化比逐帧独立使用先验更稳定
- 动态调权+两种损失联合使用效果最好(AbsRel 0.108)
- 离线预计算固定相机高度甚至略优于在线优化
- 离线预训练+在线微调可达最高精度
关键发现¶
- 最简单的Monodepth2+FUMET即优于需要GT尺度标签的弱监督方法
- FUMET不仅学会度量尺度,还提升几何精度(median scaling后仍有改善)
- VADepth需要GT相机高度但精度反而不如FUMET,说明精确测量相机高度本身困难
亮点与洞察¶
- 核心洞察精妙: 相机高度不变将分散的车辆尺寸线索聚合为稳定的监督信号
- 架构无关性: 可即插即用到任意单目深度网络
- 真正的无监督度量深度: 仅需单目行车视频+相机内参
- 混合数据集训练: 不同相机高度的数据集可统一训练
- 推理零开销: 计算成本与原始MDE模型完全相同
局限与展望¶
- 依赖车辆检测: 对无车场景可能失效
- LSP泛化性: 对非常见车型可能不准确
- 限于驾驶场景: 假设道路场景中的车辆和地面平面
- 未来可扩展到其他已知尺寸物体(行人、交通标志)
相关工作与启发¶
- 与弱监督方法的根本区别在于不需要辅助传感器
- 加权移动平均优化策略可推广到其他跨帧一致性任务
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 相机高度不变性作为监督信号极其巧妙
- 实用性: ⭐⭐⭐⭐⭐ — 真正实现无辅助传感器的度量深度
- 实验充分度: ⭐⭐⭐⭐⭐ — 多数据集、多架构、全面消融
- 写作质量: ⭐⭐⭐⭐ — 逻辑清晰,各组件动机明确